现现在,经由历久的研讨试验证实,无模子深度强化进修在视频游戏、模仿机械人把持和活动等范畴具有优越的机能表示。但是,尽人皆知,当与情况的交互时光无限的情形下,无模子办法的表示其实不佳,就像年夜多半实际世界中的机械人义务一样。在本文中,我们研讨了若何可以或许将应用soft Q-learning练习的最年夜熵战略运用于实际世界中的机械人把持义务。这类办法之所以可以或许在实际世界中的运用重要得益于soft Q-learning的两个主要特点:起首,soft Q-learning可以经由过程进修具有表达性的基于能量的模子所表现的战略(energy-based models),从而进修多形式摸索战略。其次,我们展现了经由过程soft Q-learning所进修的战略可以构成新战略,而且终究战略的最优性可以依据组合战略之间的不合来界定。这类组合性为实际世界的把持义务供给了一个特殊有价值的对象,个中,经由过程对现有的技巧停止组合进而结构出新的战略,可以在从零开端的练习中供给效力上的年夜幅进步。我们的试验评价成果注解,相较于以往的无模子深度强化进修办法,soft Q-learning具有更高的样本效力,而且可以对模仿和实际世界的义务履行组合性。
我们,应用一种称为soft Q-learning的最年夜熵强化进修算法,对Sawyer机械人停止练习使其可以或许将乐高积木叠加在一路。从零开端对一个战略停止练习须要不到两个小时的时光,而且已进修事物战略搅扰(左图)具有很强的鲁棒性。我们还展现了该若何将学到的战略组合起来构成新的复合技巧,例如在避开乐高积木塔的情形下停止堆叠操作(右图)。
具有表达性的通用目标函数近似器(如神经收集),与可用于获得庞杂行动战略的通用目标无模子强化进修算法的交集,无望完成普遍的机械人行动的主动化:强化进修供给了用于推理序列决议计划的情势主义,而年夜型神经收集供给了表征,准绳上,可以用于应用起码的手工工程来来表现任何行动。但是,经由理论证实,将具有多层神经收集表现(即深度强化进修)的无模子强化进修算法运用于实际世界中的机械人掌握成绩,这一进程长短常艰苦的:无模子办法的样本庞杂性相当高,而且因为年夜容量函数近似器的包涵性,庞杂性还将进一步进步。在以往的研讨中,专家们试图经由过程在多个机械人上并行化进修来减缓这些成绩,好比应用实例演示[,或模仿练习,并依附准确的模子完成向实际世界的迁徙。一切这些办法都带有附加的假定和局限性。那末,我们能否可以设计出一种无模子强化进修算法,这类算法可以或许在不依附模仿、演示或多个机械人的情形下,直接对实际世界中的多层神经收集模子停止高效练习?
我们假定,基于以下两点性质,最年夜熵道理可认为现实的、实际世界的深度强化进修供给一个有用的框架。起首,最年夜熵战略经由过程玻尔兹曼散布(Boltzmann distribution)表达了一个随机战略,供给了一种内涵的、明智的摸索战略,它,其能量对应于reward-to-go或Q函数。此散布为一切操作分派一个非零几率,但希冀报答更高的操作更能够被采样。是以,该战略将主动把摸索引向报答更高的区域。这类特征可以被看做是摸索和开辟的软组合,在现实运用中长短常无益的,由于它供给了比贪心摸索(greedy exploration)更多的构造,而且正如我们试验所展现的那样,这年夜年夜进步了样本的庞杂性。其次,正如我们在文章中所展现的那样,自力练习的最年夜熵战略可以经由过程增长Q函数而其组合在一路,从而为归并后的嘉奖函数发生一个新的战略,该战略被证实近乎于响应的最优战略。在现实运用中,掌握器的可组合性尤其主要,而这在尺度强化进修中是弗成能的。在这些运用中,反复应用曩昔的经历可以极年夜地进步义务的样本效力(这些义务可以天然地分化为更简略的子成绩)。例如,拾取和放置的战略可以分化为(1)达到指定的X坐标(2)达到指定的Y坐标(3)躲避妨碍。是以,这类可分化的战略可以分三个阶段进修,每一个阶段发生一个子战略,而这些此战略随后可以在须要与情况停止交互的情形下停止离线组合。
对两个自力的战略停止练习,从而响应地推进圆柱到橙色线和蓝色线。黑色圆圈显示了针对响应战略的圆柱达到终究地位的样本。当战略组合在一路时,生成的战略会进修将圆柱体推到线的下穿插点(绿色圆圈表现终究地位)。没有来自情况的附加样本用于对组合战略停止练习。组合战略进修知足两个原始目的,而不是简略地均匀终究圆柱地位。
本文的重要进献是在最新提出的soft Q-learning(SQL)算法的基本上,提出了一种应用具有表达性的神经收集战略进修机械人操作技巧的进修框架。我们证实了,该进修框架为进修各类机械人技巧供给了一种有用的机制,而且在现实机械人体系的样本效力方面优于今朝最早进的无模子深度强化进修办法。我们的试验成果注解,在很年夜的水平上,SQL的机能要远远优于深度肯定性战略梯度(DDPG)和归一化优势函数(NAF),这些算法曩昔曾被用于应用神经收集摸索实际世界中的无模子机械人进修。我们还演示了对SQL算法的全新的扩大,即应用它对之前进修过的技巧停止组合。我们提出了一个关于组合战略和组合嘉奖函数最优战略之间差异的实际界线,它实用于SQL和其他基于软优化的强化进修办法。在试验中,我们应用最年夜熵战略在模仿范畴和物理范畴的组合性,展现了分歧技巧的鲁棒性进修,而且在样本效力方面超出了现有的最早进的办法。
当在Sawyer机械人长进行练习以将其末尾履行器挪动到特定地位时,DDPG(绿色)、NAF(白色)和SQL(蓝色)的进修曲线。SQL的进修速度比其他办法快很多。我们还经由过程将希冀的地位衔接到不雅察向量(橙色)以练习SQL到达随机采样的末尾履行器地位。SQL学会尽快处理这个义务。SQL曲线显示10个轮数中的挪动均匀值。
在本文中,我们商量了若何将soft Q-learning扩大到实际世界中的机械人操作义务中,既可以进修单个操作义务,也能够进修可以或许构成新战略的组合义务。我们的试验注解,实质下去说,soft Q-learning的机能要远远优于无模子深度强化进修。在模仿达到义务中,soft Q-learning具有比NAF更好的机能,个中包含多个战略组合以达到新地位的情形。除此以外,在Sawyer机械人停止评价的真实世界义务的履行中,soft Q-learning的机能上胜过DDPG。该办法具有更好的稳固性和收敛性,而且经由过程soft Q-learning取得的对Q函数停止组合的才能可使其在实际世界的机械人场景中特殊有效,个中针对每一个新嘉奖身分组合的新战略停止再练习是耗时且昂贵的。
在不到两个小时的时光里,便可以学会一个乐高堆叠战略。进修到的战略对搅扰聚于很强的鲁棒性:当机械人被推动到一个与典范轨迹完整分歧的状况后,它可以或许恢复并胜利地将乐高积木堆在一路。
在研讨最年夜熵战略的可组合性时,我们推导出了组合战略与组合嘉奖函数的最优战略之间误差的界线。这一界线注解熵值较高的战略能够更轻易停止组合。在将来,一项成心义的研讨偏向是探访这一束缚对组合性的影响。例如,我们能否可以推导出一个可运用于组合Q函数的修改,以削减误差?答复如许的成绩,会使得从先前练习过的构建块中创立新的机械人技巧变得加倍现实,这使得机械人更轻易取得经由过程强化进修所学到的年夜量行动。