当前位置: 首页 » 行业资讯 » 机器人»日本研究者提出新算法：让机器人通过多模态深度强化学习获得社会智能

日本研究者提出新算法：让机器人通过多模态深度强化学习获得社会智能

[点击复制]

发布日期：2017-03-01 浏览次数：598

核心提示：我们一向在等待机械人能在我们的平常生涯中施展主要的感化，而作为机械人强国的日本也一向是这一范畴的引导者之一。近日，日本年夜阪年夜学和日本迷信枝术复兴机构（JST）ERATO ISHIGURO 共生人机交互项目（Symbioti

我们一向在等待机械人能在我们的平常生涯中施展主要的感化，而作为机械人强国的日本也一向是这一范畴的引导者之一。近日，日本年夜阪年夜学和日本迷信枝术复兴机构（JST）ERATO ISHIGURO 共生人机交互项目（Symbiotic Human-Robot Interaction Project）的研讨者在 arXiv 提交了一篇论文，引见了他们在机械人的社会智能上的研讨结果。别的值得一提的是，他们的试验用到了有名的 Pepper 机械人。

摘要

要让机械人与人类在相似我们社会那样的社会世界中共存，它们须要控制相似人类的社交技巧，这是很症结的。经由过程编程的方法来让机械人控制这些技巧是很艰苦的。在这篇论文中，我们提出了一种多模态深度 Q 收集（MDQN：Multimodal Deep Q-Network），可让机械人经由过程试错的办法来进修相似人类的交互技巧。这篇论文的目的是开辟可以或许在与人类的交互进程中搜集数据而且可以或许应用端到真个强化进修从高维度传感信息中进修人类交互行动的机械人。本论文注解，机械人在经由了与人类的 14 天交互以后，可以胜利学会根本的交互技巧。

图 1：机械人向人进修社交技巧

算法引见

这里提出的算法由两个自力任务的流构成：一个用于处置灰度帧（grayscale frame），另外一个用于处置深度帧（depth frame）。

上面的 Algorithm 1 概述了这个算法。由于该模子有两个流，由于其参数 θ 和 θ- 是由两个收集的参数组成的。和 DQN [10] 分歧，我们将数据生成阶段和练习阶段离开了。每天的试验都对应于一个 episode，在这时代，算法要末履行数据生成阶段，要末履行练习阶段。

本研讨所提出的算法的伪代码

以下是这两个阶段的简述：

数据生成阶段（data generation phase）：在数据生成阶段，体系应用 Q 收集 Q(s, a; θ) 来与其情况停止交互。该体系会不雅察以后场景（由灰度帧和深度帧组成），并应用 ε-greedy 战略来采用行为。该情况又会反过去供给标量的嘉奖（reward）（请参阅 5(2) 节懂得嘉奖函数的界说）。交互阅历是

其被存储在重放记忆 M 中。重放记忆 M 会保留 N 个比来的阅历，然后这些阅历会在练习阶段被用于更新该收集的参数。

练习阶段（training phase）：在练习阶段，该体系会应用存储在重放记忆 M 中的数据来对收集停止练习。超参数 n 表现阅历重放的数目。关于每次阅历重放，都邑从无限年夜小的重放记忆 M 中随机采样出一个包括 2000 次交互阅历的迷你缓存器 B。该模子会在从缓存器 B 中采样出的 mini batch 长进行练习，该收集的参数会在 bellman targets 的偏向上迭代式地更新。这个对重放记忆的随机采样会打破样本之间的相干性，由于尺度的强化进修办法假定样本是自力的且完整散布式的。将该算法分红两个阶段的缘由是为了不延迟——假如该收集在交互时代同时停止练习就会发生这类延迟。该 DQN [16] 署理在一个轮回中任务，个中它起首会与情况停止交互，然后会将这个改变存储到重放记忆中，然后其会从该重放记忆中采样出 mini batch，并在这个 mini batch 上练习该收集。这个轮回会赓续反复，直到终止。这个交互和练习的次序进程在 HRI 以外的范畴或许是可以接收的。在 HRI 范畴，署理必需基于社会标准来和人类停止交互，是以机械人的任何停留和延迟都是弗成接收的。是以，我们将该算法分红了两个阶段：在第一个阶段，机械人经由过程与人类停止无限时光的交互来搜集数据；在第二个阶段，其进入阶段。在这个歇息阶段，练习阶段激活从而对该多模态深度 Q 网路（MDQN）停止练习。

完成细节

这个模子由两个流（stream）组成，一个用于灰度信息，另外一个用于深度信息。这两个流的构造是完整雷同的，每一个流都由 8 个层构成（包含输出层）。全体模子架构如图 2 所示。

图 2：双流式卷积神经收集

该多模态 Q 收集的 y 信道和 depth 信道的输出分离是灰度图象（198 × 198 × 8）和深度图象（198 × 198 × 8）。由于每一个流都应用 8 帧输出，是以，来自对应相机的最新的 8 帧是被预处置后堆叠到一路，组成该收集的每一个流的输出。由于这两个流是完整一样的，所以我们在这里只评论辩论一个流的构造便可。198 × 198 × 8 的输出图象起首被传递给第一个卷积层（C1），其以 3 的步幅卷积盘算 9×9 的 16 个滤波器，前面则随着一个整流线性单位（ReLU）函数并获得每一个年夜小为 64×64 的 16 个特点图（我们将其记为 16@64×64）。这个来自 C1 的输入然后会被送入下采样层 S1，其以 2×2 的步幅运用 2×2 的最年夜池化（max-pooling）。第二（C2）和第三（C3）个卷积层分离卷积盘算 32 和 64 个滤波器，其年夜小为 5×5，应用了 1 的步幅。C2 和 C3 的输入经由过程非线性 ReLU 函数，然后分离被送入下采样层 S2 和 S3。最初的隐蔽层是带有 256 个整流单位的全衔接层。输入层则是一个全衔接的线性层，带有 4 个单位，每个单位对应一个正当举措。

图 3：胜利和不胜利的握手示例

图 4：在经由了一系列的 episode 以后，MDQN 在测试数据集上的表示

下一篇：国家引导机器人良性发展磁件企业可伺机而动

上一篇：全球首款乒乓球导师机器人获吉尼斯世界记录

[ 行业资讯搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 关闭窗口 ]

同类行业资讯

• 港仔机器人实现资本与科技合璧以标准化推动人 • “量产元年” 人形机器人加速落地多场景
• 动易科技完成超亿元天使轮融资，将发布首款全尺 • 浙江温岭：生产机器人供市场
• 纬钛机器人完成近亿元融资，聚焦机器人仿生感知 • 这项国家标准由越疆机器人参与牵头定制，已正式
• 万亿蓝海启航！人形机器人产业链迎爆发式“黄金 • 北京亦庄机器人应用场景全景解码
• 英媒：人形机器人较量中国巧妙占上风 • 全市首个人形机器人数据训练中心落地首钢园民

共0条 [查看全部] 相关评论

展会更多+

第26届上海国际清

2025数控机床与金

2025中国(上海)机

2025武汉国际工业

04-182025中国（宁波）五金机电进出口博览会暨外贸采购与出海发展高峰论坛

04-032025中国(东莞)切削工业装备博览会

01-13第26届上海国际清洁技术与设备博览会

12-112025数控机床与金属加工展暨第25届中国国际工业博览会

12-092025中国(上海)机器视觉展

视频更多+

中舟智能固守科技

玉沣科技：精研滑

新松机器人自动化

罗克韦尔自动化（

10-11中舟智能固守科技创新新品首发添彩中国梦

10-11玉沣科技：精研滑台十二载遥遥领先的模组

08-05新松机器人自动化股份有限公司

07-18罗克韦尔自动化（中国）企业宣传片

07-18凌华科技机器手臂视觉导引解决方案

点击排行

人形机器人生产节奏渐趋明确多

从实验室到赛场我国人形机器人

在成都，机器人批量造机器人

人形机器人商业化落地可期

7年投资44.2亿元！广东持续推进A

持续构建创新生态，浦东加速人形

中国成全球机器人最大“练兵场”

打造人形机器人产业竞争新优势

全市首个人形机器人数据训练中心

英媒：人形机器人较量中国巧妙

我的供应

我的求购

商铺管理

工业机器人及行业应用

智能机器人

工业自动化

智能装备

日本研究者提出新算法：让机器人通过多模态深度强化学习获得社会智能

• 港仔机器人实现资本与科技合璧以标准化推动人	• “量产元年” 人形机器人加速落地多场景
• 动易科技完成超亿元天使轮融资，将发布首款全尺	• 浙江温岭：生产机器人供市场
• 纬钛机器人完成近亿元融资，聚焦机器人仿生感知	• 这项国家标准由越疆机器人参与牵头定制，已正式
• 万亿蓝海启航！人形机器人产业链迎爆发式“黄金	• 北京亦庄机器人应用场景全景解码
• 英媒：人形机器人较量中国巧妙占上风	• 全市首个人形机器人数据训练中心落地首钢园民

第26届上海国际清	2025数控机床与金
2025中国(上海)机	2025武汉国际工业

中舟智能固守科技	玉沣科技：精研滑
新松机器人自动化	罗克韦尔自动化（