当前位置: 首页 » 行业资讯 » 机器人»日本研究者提出新算法:让机器人通过多模态深度强化学习获得社会智能
   

日本研究者提出新算法:让机器人通过多模态深度强化学习获得社会智能

 46.1K
     [点击复制]
放大字体  缩小字体 发布日期:2017-03-01   浏览次数:595
核心提示:我们一向在等待机械人能在我们的平常生涯中施展主要的感化,而作为机械人强国的日本也一向是这一范畴的引导者之一。近日,日本年夜阪年夜学和日本迷信枝术复兴机构(JST)ERATO ISHIGURO 共生人机交互项目(Symbioti

我们一向在等待机械人能在我们的平常生涯中施展主要的感化,而作为机械人强国的日本也一向是这一范畴的引导者之一。近日,日本年夜阪年夜学和日本迷信枝术复兴机构(JST)ERATO ISHIGURO 共生人机交互项目(Symbiotic Human-Robot Interaction Project)的研讨者在 arXiv 提交了一篇论文,引见了他们在机械人的社会智能上的研讨结果。别的值得一提的是,他们的试验用到了有名的 Pepper 机械人。

摘要

要让机械人与人类在相似我们社会那样的社会世界中共存,它们须要控制相似人类的社交技巧,这是很症结的。经由过程编程的方法来让机械人控制这些技巧是很艰苦的。在这篇论文中,我们提出了一种多模态深度 Q 收集(MDQN:Multimodal Deep Q-Network),可让机械人经由过程试错的办法来进修相似人类的交互技巧。这篇论文的目的是开辟可以或许在与人类的交互进程中搜集数据而且可以或许应用端到真个强化进修从高维度传感信息中进修人类交互行动的机械人。本论文注解,机械人在经由了与人类的 14 天交互以后,可以胜利学会根本的交互技巧。

图 1:机械人向人进修社交技巧

算法引见

这里提出的算法由两个自力任务的流构成:一个用于处置灰度帧(grayscale frame),另外一个用于处置深度帧(depth frame)。

上面的 Algorithm 1 概述了这个算法。由于该模子有两个流,由于其参数 θ 和 θ- 是由两个收集的参数组成的。和 DQN [10] 分歧,我们将数据生成阶段和练习阶段离开了。每天的试验都对应于一个 episode,在这时代,算法要末履行数据生成阶段,要末履行练习阶段。

本研讨所提出的算法的伪代码

以下是这两个阶段的简述:

数据生成阶段(data generation phase):在数据生成阶段,体系应用 Q 收集 Q(s, a; θ) 来与其情况停止交互。该体系会不雅察以后场景(由灰度帧和深度帧组成),并应用 ε-greedy 战略来采用行为。该情况又会反过去供给标量的嘉奖(reward)(请参阅 5(2) 节懂得嘉奖函数的界说)。交互阅历是

其被存储在重放记忆 M 中。重放记忆 M 会保留 N 个比来的阅历,然后这些阅历会在练习阶段被用于更新该收集的参数。

练习阶段(training phase):在练习阶段,该体系会应用存储在重放记忆 M 中的数据来对收集停止练习。超参数 n 表现阅历重放的数目。关于每次阅历重放,都邑从无限年夜小的重放记忆 M 中随机采样出一个包括 2000 次交互阅历的迷你缓存器 B。该模子会在从缓存器 B 中采样出的 mini batch 长进行练习,该收集的参数会在 bellman targets 的偏向上迭代式地更新。这个对重放记忆的随机采样会打破样本之间的相干性,由于尺度的强化进修办法假定样本是自力的且完整散布式的。将该算法分红两个阶段的缘由是为了不延迟——假如该收集在交互时代同时停止练习就会发生这类延迟。该 DQN [16] 署理在一个轮回中任务,个中它起首会与情况停止交互,然后会将这个改变存储到重放记忆中,然后其会从该重放记忆中采样出 mini batch,并在这个 mini batch 上练习该收集。这个轮回会赓续反复,直到终止。这个交互和练习的次序进程在 HRI 以外的范畴或许是可以接收的。在 HRI 范畴,署理必需基于社会标准来和人类停止交互,是以机械人的任何停留和延迟都是弗成接收的。是以,我们将该算法分红了两个阶段:在第一个阶段,机械人经由过程与人类停止无限时光的交互来搜集数据;在第二个阶段,其进入阶段。在这个歇息阶段,练习阶段激活从而对该多模态深度 Q 网路(MDQN)停止练习。

完成细节

这个模子由两个流(stream)组成,一个用于灰度信息,另外一个用于深度信息。这两个流的构造是完整雷同的,每一个流都由 8 个层构成(包含输出层)。全体模子架构如图 2 所示。

图 2:双流式卷积神经收集

该多模态 Q 收集的 y 信道和 depth 信道的输出分离是灰度图象(198 × 198 × 8)和深度图象(198 × 198 × 8)。由于每一个流都应用 8 帧输出,是以,来自对应相机的最新的 8 帧是被预处置后堆叠到一路,组成该收集的每一个流的输出。由于这两个流是完整一样的,所以我们在这里只评论辩论一个流的构造便可。198 × 198 × 8 的输出图象起首被传递给第一个卷积层(C1),其以 3 的步幅卷积盘算 9×9 的 16 个滤波器,前面则随着一个整流线性单位(ReLU)函数并获得每一个年夜小为 64×64 的 16 个特点图(我们将其记为 16@64×64)。这个来自 C1 的输入然后会被送入下采样层 S1,其以 2×2 的步幅运用 2×2 的最年夜池化(max-pooling)。第二(C2)和第三(C3)个卷积层分离卷积盘算 32 和 64 个滤波器,其年夜小为 5×5,应用了 1 的步幅。C2 和 C3 的输入经由过程非线性 ReLU 函数,然后分离被送入下采样层 S2 和 S3。最初的隐蔽层是带有 256 个整流单位的全衔接层。输入层则是一个全衔接的线性层,带有 4 个单位,每个单位对应一个正当举措。

图 3:胜利和不胜利的握手示例

图 4:在经由了一系列的 episode 以后,MDQN 在测试数据集上的表示

 
 
 
[ 行业资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]