当前位置: 首页 » 行业资讯 » 机器人»李飞飞新研究：基于深度学习和视觉化语言来了解不同物体间的关系

李飞飞新研究：基于深度学习和视觉化语言来了解不同物体间的关系

[点击复制]

发布日期：2017-10-30 浏览次数：1023

核心提示：　　2017将来迷信年夜奖颁奖仪式暨将来服装论坛t.vhao.net年会28、29日在京举行，斯坦福年夜学毕生传授、谷歌云首席迷信家李飞飞在人工智能研究会上表现，比来她地点的试验室正在做一项新研讨，基于深度进修和视觉化

　　2017将来迷信年夜奖颁奖仪式暨将来服装论坛t.vhao.net年会28、29日在京举行，斯坦福年夜学毕生传授、谷歌云首席迷信家李飞飞在人工智能研究会上表现，比来她地点的试验室正在做一项新研讨，基于深度进修和视觉化说话形式懂得分歧物体之间的关系。

李飞飞新研究：基于深度学习和视觉化语言来了解不同物体间的关系

　　李飞飞表现，不管是植物智能照样机械智能，视觉都长短常主要的技巧。视觉是人脑中最为庞杂的体系，占领年夜脑中50%的熟悉单元。视觉反响速度异常快，只须要150微秒。这使得图象辨认技巧变得异常主要但又非常庞杂。

　　曩昔8年时光，图象辨认的毛病率下降了10倍。2012年对GPU和深度辨认技巧的懂得让这一范畴完成了冲破。然则，在一个图集中，要取得数据和物体之前关系的信息仍然很难，今朝所能做的任务都非常无限。李飞飞地点试验室正在为霸占这一范畴睁开新的研讨。

　　她罗列了一张图中的算法，这类算法可以猜测分歧物体之间的空间关系，停止比较，懂得这类对称的关系，然后懂得物体之间的举措，和它们的之间地位关系。物体之间还能有甚么样的数据集，供给一个标签，停止短句子描写。停止进一步懂得视觉世界，而不只仅是一系列的物体称号，试验室正在做相干量化研讨。

　　以下是李飞飞演讲实录，enjoy：

　　明天我给年夜家带来的是比来的一些研讨思绪，明天我的演讲内容是关于视觉智能，植物世界傍边有许多物种，并且有一种异常了不得，绝年夜多半植物都有眼睛，是以视觉是最为主要的一种感不雅的办法和认知办法，这是在植物的年夜脑傍边，赞助植物活着界傍边生计上去停止沟通，去操控和生计。

　　所以我们不管是评论辩论植物智能或许是机械智能的话，视觉长短常主要的基石。世界上所存在的这些体系傍边，最为懂得的一点是我们所晓得的人类视觉体系。所以在5亿多年前的时刻，这个退化曾经赓续地让我们的视觉体系赓续地成长，使得我们的视觉体系异常主要的去懂得这个世界，并且这是我们年夜脑傍边最为庞杂的体系，并且有50%的年夜脑傍边的这些认知的单元，都有着最为庞杂、最为高等的感知体系，所以可以或许让我们晓得人类的视觉体系异常了不得。

　　这是认贴心理学家做过的一个最为有名的一个试验，这也就是告知年夜家人类的视觉系统有何等了不得，年夜家看一下这个视频，你的义务是假如看到一小我的话就举手，这是一个智商测试。所以每一个图景的时光长短常短的，也就是1/10秒，不只如许，并且让年夜家看一小我的话，并没有告知你是甚么样的人，或许他站在哪里，甚么样的姿态，穿甚么样的衣服，但是年夜家依然能很快地辨认出这小我。

　　1996年的时刻，Newl（音译）传授先生证实出视觉认知才能是人类年夜脑傍边最为了不得的才能，由于速度异常快，并且年夜概是150微秒，在150微秒以内，我们的年夜脑可以或许差别异常庞杂的图象。会把异常庞杂的含植物和不含植物的图象差别出来，谁人时刻盘算机没有接近人类的，这类任务鼓励着盘算机迷信家，愿望处理最为根本的成绩就是图象辨认成绩。

　　过了20年到如今，盘算机范畴和专家也在这个成绩上创造了几代技巧，这个就是我们所懂得到的这些图集，固然也获得了异常年夜的停顿和提高。这张图表是给年夜家总结一下，在曩昔的几年傍边，在分类挑衅傍边一些标记性的项目，横轴是时光年份，右边纵轴指的是分类毛病。我们可以或许看到它的毛病是下降了10倍。8年的时光里毛病率就下降了十倍，所以这八年傍边阅历了异常年夜的反动。

　　2012年的时刻懂得了GPU技巧，和深度辨认技巧，赞助世界懂得在深层进修反动的一个成长，所以异常使人冲动的范畴，特别曩昔几十年在人工智能的研讨。作为迷信家就会想一下在这个图集以外，还可以做到甚么。

　　经由过程一个例子告知年夜家，两张图片，包含一个植物和一小我，经由过程图象辨认来看这两个图异常类似，然则他们的故事倒是异常分歧的，固然你确定不想在左边的图的场景傍边，我们在这就会涌现一个异常主要的成绩，就是人们可以或许做的，这也是最为主要、最为基本的一点图象辨认功效，就是辨认图象物体之间的关系，起首这个输出是图象自己，然则我们所输入的信息包含物体的地位和物体之间的关系。固然这个范畴有一些后期任务，然则绝年夜多半任务都是比拟无限的。取得数据和物体之间的关系信息比拟无限。

　　比来我们的试验傍边做了如许一项任务，开端新的研讨，猜测依据深度进修，和视觉化说话形式懂得分歧物体之间的关系。

　　这张图的算法可以或许猜测分歧物体之间的空间关系，停止比较，懂得这类对称的关系，然后懂得他们之间的举措，和他们的之间地位关系。所以这就是一个更加丰硕的办法，懂得我们的视觉世界，而不只仅是一系列的物体称号，这是我们所做出的一些量化研讨。解释我们的任务在赓续地停顿和获得提高的。

　　一年前的时刻，我们晓得这个范畴成长异常快，就是关于盘算机图象辨认方面。我们也晓得有许多新的研讨曾经跨越了我们的研讨结果。

　　我们可以看一下，在他们之间的关系是甚么，并且在这个图象傍边分歧物体的关系，可以或许让我们去更进一步懂得这个成绩，就是在物体之间还会有甚么样的数据集。最开端我们晓得有这个抽象，异常无限的信息，好比这是一个物体，COCO进一步进修，供给一个标签，停止短句子描写，视觉数据信息长短常庞杂和异常多的，

　　依据门路出来一些问答，经由三年的研讨，我们发明可以有更加丰硕的办法来描写这些内容，经由过程这些分歧的标签，描写这些物体，包含他们的性质、属性和关系，然后经由过程如许的一个图谱树立起他们之间的接洽。可以在这看一下这个内容。如许一个数据库傍边，包含上千个标签，包含属性和关系，还有句子、问答信息，在我们如许一个信息库傍边，可以或许异常准确地让我们来停止加倍准确的研讨，而不只仅晓得物体辨认自己。

　　我们若何往来来往应用如许的图表呢？我们做过的一个任务，就是我们看一下这个场景的搜刮，年夜家不管在百度照样在Google搜刮中，搜刮过图象或许图集，好比可以输出穿西装的男性，可以展示出许多的图，假如输出心爱的小狗的话，有许多相似的图会涌现，这一点异常好。同时看一下他们处理了甚么成绩呢？能否处理了图象搜刮的成绩呢？我们输出一个句子，男性穿戴西装，抱着心爱的小狗，刹时成果不是特殊好了。绝年夜多半搜刮引擎的这类算法，在搜刮图象的时刻，能够许多照样仅仅应用物体自己的信息，他们只是简略地懂得这个图有甚么物体，然则这是不敷的。

　　假如我想搜刮一个坐在椅子上的男性的话，假如物体自己给我们一小我抽象或许椅子抽象再能加上更多的属性，加上更多的信息，这个成果就会更好一些。

　　2015年的时刻，我们开端去摸索一种新的出现办法，我们可以去输出异常长的描写性的段落，放到年夜型的数据库傍边，然后来把它和我们的图象停止比较，我们经由过程这类算法可以或许赞助我们停止很好的搜刮，这就远远地跨越了我们在明天的这个图象搜刮技巧傍边所看到的成果。

　　这个看起来异常好，然则年夜家会有一个成绩，在哪里可以或许找到这些场景图象呢？确切异常庞杂，并且很难赞助我们构建起一个场景图，所以我们是手动地去构建如许一个场景，这个进程将会异常复杂，所以我们下一步的任务，我们就是愿望可以或许涌现主动地发生场景图的一个技巧。所以我们有如许一个主动的体系，固然是经由过程这类迭代的信息传递的形式，并且应用这类深度进修的出现办法，固然太细节的内容在这不给年夜家讲了，然则要给年夜祖传递的一个主要信息。我们本年炎天的时刻的一个结果就是我们这个办法在场景图这方面的搜刮结果是比现行的激活技巧要更好的。

　　经由过程如许一种场景图，会给我们供给一个四层的进程，并且让我们更好地懂得场景信息，然则照样不敷的。并且现实上到如今为止，我们仅仅摸索了认贴心理学家所评论辩论的一个概念，人们在一眼当中可以或许看到甚么样的内容，有甚么样的概念，人们只需看一眼就可以看出全部图象傍边的故事，所以我们要去看一下，这类只看一下图就可以够懂得它重要信息的才能是甚么呢？在我之前，已经做过一个研讨，就是愿望人们可以或许告知我们，你看到了这个图的时刻看到了甚么内容，所以这是我们的试验场景，试验人员坐在电脑屏幕眼前，给它异常冗长地看一些图象，然后很快地去看别的的一个图象，去隐瞒之前留下的印象。他们须要打印出本身所看到的一切内容，做这个任务给他们付10美元，如今不给年夜家一小时10美元，年夜家可以试验一下这个感到，假如你是加入我的试验人员的话。

　　在这个图傍边其实很快可以或许被一张简略的门路去盖失落，很短的出现时光，只要27奥妙，27奥妙相当因而1/40秒，简略图形的时光是半秒的时光，是更长的，人们照样可以或许很好地舆解场景信息，根本上是很短的时光。假如我给的试验费用更高的话，年夜家乃至能做的更好。在这个说话傍边有异常丰硕的元素，不只仅看到图象傍边的物体是甚么，他们的关系是甚么，并且有更多的内容。

　　2015年开端，我们有别的一个概念，叫做LSTM，他们愿望把说话之间关系树立起来，我们在电脑傍边给他们一个图象，可以或许描写，穿橙色任务服的工人站在路上任务，或许穿黑色T恤的男士在弹吉他，不只仅用冗长的句子描写图形，所今后来停止进一步的任务，就是深度捕捉。看每一个短句，描写一个部门，然后描写图象的场景。

　　除这个以外，我们本年所做的任务，我们愿望把这些图象要用这些短语，让它成为小短的句子，成为一个小段落，给了更多的内容，并且和认贴心理学家所做的试验傍边，人类的描写成果长短常接近的。然则我们并没有只停于这里，在上个周的ICCB的下面展现了一个视频，异常丰硕的研讨区域，许多收集上的视频，有各类各样的数据情势，懂得这些视频长短常主要的。在外面可以描写更长故事的片断，用异样的模子可以如许做，可以把时光的元素参加到外面。

　　这就是一个例子，年夜家可以看一下，可以看到视频是在停止着的，我们也能够去描写每个部门是怎样样的。

　　这是别的一个例子，也是描写了这个演员正在做的这些工作，差不多年夜家能明确甚么意思了。

　　别的一个部门，除简略的认知之外就是推理，推理可让我们可以或许回到人工智能的最后，在20世纪七八十年月的时刻，人工智能的前驱们，用了许多推理，斯坦福年夜学的一个传授也是把他的研讨称为一个块状的世界，这外面触及到许多的深度推理。蓝色照样不错的，爱好这些蓝色的块状，不爱好白色的块状，不爱好支持三角形的器械，究竟爱好不爱好灰色的盒子呢？所以这里有许多推理须要去做的，然后够得出一个准确的谜底。

　　固然时光过得很快，不克不及讲的特殊具体，然则我们在试验室里也是用了这些简略的对象，来描写如许一个分块状的世界。这外面也有许多的问答列表，每一个问答列表都是触及到推理的进程傍边，最症结的一些环节，包含空间的一些关系，一些逻辑关系，在这外面也有一些问答例子。

　　客岁，我们也是把这些智能的问答集做成了如许一个体系，人类能做若干，机械能做若干，在精确下面的一个比较。我们究竟怎样可以或许做得更好呢？这也是比来我们做的一个任务，在ICCB揭橥的。我们用了一个新的法式去做，在我们的算法外面，我们把这些成绩输出出去，然后把法式停止一些调和，还有履行的引擎，用猜测的一些法式停止履行的处置。经由过程如许一个算法，我们可以看到这些进修的精确率。

　　有哪些进修模块呢？起首断定究竟这些物体外形怎样样，这些紫色是甚么样的，这是一个加倍庞杂的，就是在灰色的这些模块旁边，有若干发光的这些物体？得出的成果是2。

　　我给年夜家分享的就是一系列的任务，有哪些可以或许超出我们视觉的一些门路，其实我们在懂得参预景，还有其他的一些要素，关于全部的认知会发生甚么样的影响，除这个情形、视觉、说话，还有许多推理等等，这些都是很主要的。

　　最初，用这张图来停止，这是20周年夜的一个小女孩，跟着她的认知世界的成长，她经由过程许多游戏，她也能够经由过程画画和各类玩具，来和世界树立认知，这是认知视觉的智能，关于我们的懂得、交换、协作、互动等等，视觉智能都长短常异常症结的，让我们开端摸索这个世界。

下一篇：美国大学研究脑力控制无人机：以脑电波通讯，获美国防部支持

上一篇：预警丨谈判失败南美第一大港将无限期罢工，码头设施损坏船公司征收南非第一大港的拥堵费！

[ 行业资讯搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 关闭窗口 ]

同类行业资讯

• 巨头扎堆入局人形机器人量产渐行渐近 • 到2026年，昌平机器人产业规模将突破150亿元！
• 抓住关键发展人形机器人 • 助力“智能+”产业，全尺寸双足通用人形机器人
• 三星：Ballie AI 机器人将于今年发布 • 2024—2030年全球人形机器人销量猛涨50倍
• 2025年人形机器人或迎量产元年 • 人形机器人产业迎利好部分产品已实现小批量量
• 近8亿！通用机器人公司傅利叶官宣E轮系列融资 • 四川：首台商用人形机器人预计3月起进行部分量

共0条 [查看全部] 相关评论

展会更多+

第26届上海国际清

2025数控机床与金

2025中国(上海)机

2025武汉国际工业

01-13第26届上海国际清洁技术与设备博览会

12-112025数控机床与金属加工展暨第25届中国国际工业博览会

12-092025中国(上海)机器视觉展

12-042025第七届亚洲消费电子技术展

12-032025世界机器人大会将于8月在北京召开

视频更多+

中舟智能固守科技

玉沣科技：精研滑

新松机器人自动化

罗克韦尔自动化（

10-11中舟智能固守科技创新新品首发添彩中国梦

10-11玉沣科技：精研滑台十二载遥遥领先的模组

08-05新松机器人自动化股份有限公司

07-18罗克韦尔自动化（中国）企业宣传片

07-18凌华科技机器手臂视觉导引解决方案

点击排行

政策+技术双重助推，机器人进入

从汽车到汽车机器人重庆打响突

被断言“没有500亿做不好”的机

亲自下场！曝OpenAI考虑开发人形

多家公司披露人形机器人业务布局

智工·工业大模型4.0发布扎根工

人形机器人有望重塑全球劳动力格

2025年，人形机器人行业将迎来“

推动核心数据集开源开放人形机

英伟达计划明年上半年发布新一代

我的供应

我的求购

商铺管理

工业机器人及行业应用

智能机器人

工业自动化

智能装备

李飞飞新研究：基于深度学习和视觉化语言来了解不同物体间的关系

• 巨头扎堆入局人形机器人量产渐行渐近	• 到2026年，昌平机器人产业规模将突破150亿元！
• 抓住关键发展人形机器人	• 助力“智能+”产业，全尺寸双足通用人形机器人
• 三星：Ballie AI 机器人将于今年发布	• 2024—2030年全球人形机器人销量猛涨50倍
• 2025年人形机器人或迎量产元年	• 人形机器人产业迎利好部分产品已实现小批量量
• 近8亿！通用机器人公司傅利叶官宣E轮系列融资	• 四川：首台商用人形机器人预计3月起进行部分量

第26届上海国际清	2025数控机床与金
2025中国(上海)机	2025武汉国际工业

中舟智能固守科技	玉沣科技：精研滑
新松机器人自动化	罗克韦尔自动化（