机器之心:近期机器学习领域有哪些让您觉得很有趣的研究吗?
杨强:机器学习领域里一个很强的特点是:可以把感知的东西学到,但很难推理。所以我觉得一个挺好的方向是让机器学习去做推理。一个例子是Facebook做的机器阅读(MachineReading),它可以在读的文章里做推理。虽然它很简单,但指出了一个方向——加入注意力模型之后就可以做符号推理。但如果能够scale到一阶逻辑去做大规模推理和定理证明的话(也是我们目前在做的研究),还有很长的路。
现在,开始有一些工作把规则,逻辑和深度学习相结合,这可以起到解释模型和获得知识的作用,把人的知识赋予到统计学习的模型里,这是很好的方向,但目前那些方法还不够,我们希望在这方面多做一些研究。因为规则是在任何一个垂直领域都必不可少的,并不是任何东西都需要从零开始学。规则的好处是准确和通用,坏处是缺乏覆盖的广度比较有限,而统计学习可以应付各种例外的发生,如何把这两者更好的结合起来是一个很有趣的方向。
机器之心:人工智能如果取得继续突破的话,是否需要把规则和统计结合起来?
杨强:统计和逻辑的结合在人工智能的发展中必不可少,AlphaGo就是这样一个例子,它非常深入的将搜索和学习这两者结合了起来。像传统符号主义的蒙特卡洛树搜索,基于统计的深度学习(比如估值网络和策略网络),然后在这两者的结合之上再加上强化学习。现在看来,虽然这事是三者比较生硬的结合,但已经取得非常大的成绩。再下面,就是看能不能把人工智能做的像人脑一样有效,不是各自独立的三块,而是在一起的。如何用一个机器模型就能同时做符号搜索,深度学习和强化学习这三件事,这是一项很有挑战但非常有趣的研究。
机器之心:那人工智能需要从神经科学领域获得更多灵感和线索吗?
杨强:是的,确实可以获得很多的灵感和线索。蒲慕明院士在2016中国人工智能大会的演讲中介绍了很多神经科学的发现。首先,他们发现在生物领域也存在BP算法的现象。如果这个神经学的发现启发了人工智能的研究,那将就是一个完整的故事,但是,神经学的这个发现是在计算机领域提出BP算法之后发现的。今天,这个发现也会对人工智能有启发。其次,人工智能里的最小计算单元往往是同类型的神经元,但蒲慕明院士认为,人脑的神经元并不是都是同类的,而是每一类有各自专门功能的。如果我们在人造神经网络中设计这样一些神经元种类,也将是很有趣的研究问题。第三就是如何学习和计算一个「忘记机制」神经学发现,人脑是在进行有选择的忘记,而这种机制是智能必不可少的体现。但是,在我们人工智能的学习系统里,并没有特别设计这种忘记机制。
另外,联接主义在人脑研究中大行其道的,但在计算领域并不是如此,深度学习可能是一个例外。但其他的——比如说符号主义的搜索——大部分都是孤立的,是单CPU大规模算法在进行,而不是并行,这些都是需要探索和发现的。但我们回来说,人工智能可以借鉴人类大脑,但不应该被人类大脑所局限。我们最后可能会发现,新的人造的智能结构,可能人脑也没有,(但可能外星人有)。所以,可能还有一些新的智能算法在等待我们来发现。如果真是那样,那也不错。
机器之心:对话系统是现在比较热的研究领域,科技巨头也都提出bots,目前在这方面还存在哪些研究难点吗?
杨强:对话系统的一个难点是把目标引入,如果你只会聊天但不会实现目标,那就没有商业前景;另外一个目标是如何把规则和统计学习结合好,因为有些特殊领域是需要有规则来规范的。第三个目标是怎么样把个性化引入,这就是迁移学习所应该发挥的价值。如果把三者统一在一个系统里完整实现,可能还需要有很长的研究,如果能做出来,那就是解决对话问题的一个非常优美的方法。
关于迁移学习,去年Science那篇文章Human-level concept learning through probabilistic program induction里提到的单个例学习,即oneexample learning。这实际上是一种迁移学习的做法,他们把一个问题分解成参数学习和结构学习两种,他们发现如果参数学习如果能够从别的地方迁移过来,那只做结构学习就可以了,而结构学习恰恰又特别好用,只需要一个例子就可以解决了。所以前面用了迁移学习,后面用了结构学习,就把oneexamplelearning实现了,是这样一个trick。这给我们带来一个很好的概念,就是说在对话系统中,你就可以把自然语言的结构学习和参数学习分开,采取分而治之的办法。
机器之心:比如说在自然语言处理方面。那迁移学习应用自然语言方面会有独特优势吗?能实现不同语言间的迁移吗?
杨强:可以实现不同语言之间的迁移。很多迁移学习的任务会比机器翻译的任务要简单,机器翻译需要很高密度的数据来对应每一句话,你要收集很多的平行语料,但是有很多学习任务并不需要做语言之间的关系,比如说分类、聚类,像这样不需要机器翻译的,就可以用迁移学习来建立两种语言(可以看成是两个领域)之间的共同表示,就是一个中性语言,通过这个中性语言进行迁移。
机器之心:Chris Manning SIGIR2016主题报告Natural Language Inference,Reading Comprehension and DeepLearning中有一页有一个形象的「压路机」比喻,列了深度学习在哪一年会对特定领域的传统算法进行「碾压」,比如说语音是在2011年、视觉是2013年、自然语言处理是2015年,IR是2017年。您对此怎么看?KDD应该在哪年?
KDD(数据挖掘)和IR是有区别的,IR是赋予机器搜索的能力,自动化为主要代表,主体并不需要引入人,所以用机器学习比较合适。但是KDD的最终目的是为人服务,所以是离不开人的。因为KDD和数据挖掘中没有人,是全自动的话,那就是机器学习了。所以,如果是为人而发掘知识、为人做解释,就需要比深度学习更多的东西:虽然里面很多东西可以用深度学习来解决,但深度学习里有很多东西是不可解释的,所以从这一点上来,仅仅用深度学习来做数据挖掘说是不合适的。在和人打交道这一方面,深度学习不可能碾压KDD。数据挖掘是为人做数据分析的辅助工具,而机器学习则是力图模拟人的行为。对于两者的区别,我做过一个比喻:你训练一只狗,若干年后,如果它忽然有一天能帮你擦鞋洗衣服,那么这就是数据挖掘。如果有一天,它化妆成狼外婆跑了,那这就是机器学习。
但是,深度学习确实可以取代某些算法。另外,我觉得KDD和IR的基因还是不一样的,这得看原领域和深度学习的重合度:做KDD研究的很多人是从数据库过来的,他们是的目的是管理信息,这就不能仅仅引入机器学习;同时,KDD的有些人是机器学习过来的,他们可以引入深度学习。但,也有心的问题:那就是模型的可解释性怎么办?如何向人类解释模型的功能和结构?因此,KDD为深度学习引入了这样一个契机——不是深度学习碾压KDD,而是KDD和深度学习一起来发挥作用。
机器之心:机器学习对基础科学研究有什么重要的推动和价值?许多科学研究现在面对着海量的实验,观测数据,比如天体物理,粒子物理,生命科学,材料科学等,机器学习会在基础科学研究中发挥重要作用吗?
杨强:机器学习对基础科学的发展应该有很大促进,在这些传统科学领域,很多人可能现在没有意识到人工智能可能带来的影响,但我们看到,深度学习的出现,只是计算机出现以来的数字革命中的一环。下一步到底要到哪儿去?是不是有可能要把科学家变成「数据民工」?比如说,把天文学家就变成操纵望远镜的天体数据的民工,把生物学家变成摆弄小白鼠的生物数据的民工?虽然这是一个未来可能出现的极端现象,但从计算机革命的角度来说,这个未来并不是不可能!当然,科学家可以去创造一些理论并去验证它,但这样的科学家的助手们可能会变成一些机器人。所以,整个科学研究会出现一个本质上的变化。
机器之心:戴文渊之前在介绍「第四范式·先知」平台时,提到这个平台的目的是让数据科学家「失业」,那人工智能会不会让科学家失业?
杨强:人工智能会让很多二流科学家失业,一流科学家还是很安全的。
对人工智能从业者的建议
机器之心:您对目前行业内深度学习热有什么看法?年轻从业人员应该如何对待这种现象?
杨强:深度学习过热不是一个坏事,我们也不应该拒绝。对于年轻人来说,大家要用平常心来看:这是一个学习算法,学习能力比较强,能够容纳更多的训练数据,我们发现它能做过去想象不到的事情,现在还是有很多红利去获取。所以年轻人如果要做的话,要尽量多动手,多编程,多了解内核的东西,而不仅仅把深度学习当成黑箱来用。
机器之心:您认为国内人工智能领域在科研和产业上还有哪些缺陷和不足吗?
杨强:我觉得国内的人工智能研究不能太跟风,对自己的研究理念和创新要有信心。在科研和产业都是如此,要创新,尤其是在大学的研究者,每个大学的教授应该是独树一帜的,自己领先一个子领域,而不是跟着别人去做。对公司的要求?公司要首先考虑生存,但在产业上也不要以为人工智能可以包罗万象。
机器之心:您有着天文学和计算机科学的复合背景,研究天文学的这段经历对您后续研究机器学习有什么帮助或者启发呢?您的物理学专业背景为您后来人工智能领域的研究工作重提供什么样的思维方式,思维习惯等方面的借鉴和帮助?
杨强:最大的启发是知道一个问题要换几个不同的角度去想,物理学家特别容易这样,他观察一个东西,可能就联想到十万八千里,看到行星就想到原子。这种联想能力是物理学里特别流行,但在计算机领域不是这样,培养一个学生出来很好的编程,拿竞赛金牌,他都不一定有联想能力。所以我特别受益于这种训练,这可能不仅仅是从物理学来的,而是从跨领域来的,所以我建议年轻人可以接触最起码两个领域。
机器之心:您有本关于介绍如何做学术研究的著作《学术研究——你的成功之路》,对于人工智能领域的学术研究,您能否给研究者提供一些建议?
杨强:任何学科都有一个系统性,对于研究我提过五点,这个对人工智能也适用。第一个就是研究的问题有用,重要。第二是这个问题可以给专业外的人都能说清楚,能自己很简洁地表达出来,能讲明白。第三个是要说清楚这个问题为什么难,就是问题到现在还没有人做过,不知道怎么做。第四点是,虽然问题还不知道怎么做,但你知道怎么把问题进行分解,分成一段一段来做,每个阶段都有一点进步,就是现在网络上说的「小目标」。第五是得有数据来验证你的想法,否则就是空想。这五个条件对学术和商业都适用。如果你觉得一个研究特别好,但你没有办法拿到数据,那你一开始就不要花时间做。另外,补充一点特别重要的,大家要明白别人做过些什么,要看很多论文,并能对过去的工作有所批判。
机器之心:您在学术界和产业界都取得了非凡的成绩,这和日常的时间规划、研究技巧和学习方法密不可分,能分享一下这方面的经验和心得吗?
杨强:时间规划,研究技巧和学习方法,这些都会因人而异,但是,学术和工业的成功有一个共同点,就是——我特别受益于锻炼身体,再忙也要抽出时间来锻炼身体。中国的学者到国外去,要给人一种很健美的形象、要有精神。而且我们会发现如果我们经常锻炼身体的话,很多时间规划的问题就迎刃而解了,因为锻炼之后你会发现头脑特别清楚,会注意到很多细节,分清楚事情的轻重缓解,之后就特别容易去做了。总之,在锻炼身体之后,以前你觉得特别难的问题都不会觉得是问题了,原来觉得特别烦恼的事情也没有了。这是给大家的一个建议。