在深度进修才开端风行然则没有像现在这么成熟的时刻(2011 年),Hinton 等人就曾经开端思虑一个成绩:深度进修依附的反向流传算法 (back-prop) 在生物学上是很难成立的,很难信任神经体系可以或许主动构成与正向流传对应的反向流传构造(这须要精准地求导数,对矩阵转置,应用链式轨则,而且剖解学上历来也没有发明如许的体系存在的证据)。
别的一点是,神经体系是有分层的(好比视觉体系有 V1, V2 等等分层),然则层数弗成能像如今的年夜型神经收集一样动不动就成百上千层(并且生物学上也不支撑如斯,神经传导速度很慢,不像用 GPU 盘算神经收集一层能够在微秒量级,生物体系传导一次普通在 ms 量级,这么多层数弗成能支撑我们如今如许的反响速度,而且同步也存在成绩)。
然则风趣的是,今朝年夜多半研讨指出,年夜脑皮层中广泛存在一种称为 Cortical minicolumn 的柱状构造,其外部含有上百个神经元,并存在分层。这意味着人脑中的一层其实不是相似如今神经收集的一层,而是有庞杂的外部构造。
不外 Hinton 也没有料到后来 CNN 成长的如斯火,他其时的这篇论文没有怎样遭到存眷。这几年他也没有持续存眷这个成绩,由于 CNN,LSTM, NTM 等等成绩太多太风趣。
不外到如今,CNN 的成长仿佛到了一个瓶颈:特殊年夜,特殊深的收集;轻易被反抗样本诱骗;依然须要年夜量练习数据;无监视进修方面停顿很少。
Hinton 在题主给的视频中从新剖析了一下今朝 CNN 的成绩,重要集中在 Pooling 方面(我以为可以推行到下采样,由于如今许多 CNN 用卷积下采样取代 Pooling 层)。Hinton 以为,曩昔人们对 Pooling 的意见是可以或许带来 invariance 的后果,也就是当内容产生很小的变更的时刻(和一些平移扭转),CNN 依然可以或许稳固辨认对应内容。
Hinton 认为这是一个毛病的偏向。他给出了一个心思学试验的例子,这个例子请求断定两个 R 能否是一样的,仅仅由于扭转招致分歧:
(简直一切)人的做法是下认识的扭转左边的 R,“看” 它们能否重合。
然则依照 CNN 的 invariance 的设法主意完整不是这么做。假如你对练习神经收集有经历,你能够会想到我们在做图象预处置和数据拓增的时刻,会把某些图片扭转一些角度,作为新的样本,给神经收集辨认。如许 CNN 可以或许做到对扭转的 invarience,而且是 “直觉上” 的 invariance,基本不须要像人那样去扭转图片,它直接就 “疏忽” 了扭转,由于我们愿望它对扭转 invariance。
CNN 异样强调对空间的 invariance,也就是对物体的平移之类的不敏感(物体分歧的地位不影响它的辨认)。这固然极年夜地进步了辨认准确率,然则关于挪动的数据(好比视频),或许我们须要检测物体详细的地位的时刻,CNN 自己很难做,须要一些滑动窗口,或许 R-CNN 之类的办法,这些办法很失常(简直确定在生物学中不存在对应构造),并且极难说明为何年夜脑在辨认静态图象和不雅察活动场景等差别很年夜的视觉功效时,简直应用统一套视觉体系。
是以 Hinton 以为,人脑做到的是 equivariance ,也就是可以或许检测到平移、选转等等各类差别,然则可以或许 “熟悉” 到他们在某些视觉成绩场景下是雷同的,某些场景下应当有所差别,而不是像 CNN 一样为了寻求单一的辨认率,用 invariance 掩饰这些差别。
因而 Hinton 从新开端存眷 Capsules 的成绩,愿望从中有所冲破,处理之前深度进修中的许多成绩。假如确切可以或许处理这些成绩,Hinton 有勇气完整摈弃之前的系统构造,从 0 开端。
这是 Hinton 比来被 NIPS 接收的关于 Capsules 论文 Dynamic Routing between Capsules (未揭橥)。其在 MNIST 上异常胜利,辨认率到达了新高,同时处理了 CNN 难以辨认堆叠图象等成绩。
注:上文中 equivalence 改成了 equivariance,这是更精确的说法
一些剖析
固然如今只要论文摘要,和 Hinton 比来的视频,我们照样可以剖析一下 Hinton 的设法主意和寻求:
可说明性。
依照 Hinton 的说法, Capsule 是一组神经元,这组神经元的激起向量可以代表对应于一类实体(好比一个物体,或许一个物体的部件)的实例参数( instantiation parameters )。这个说法异常像 Hinton 已经提的 “专家积”(Products of Experts)[1] 的概念,他用这个概念说明有名的比较散度(contrastive divergence)算法 [2]。更加人熟知的是 Andrew Y. Ng 的关于主动从视频中辨认猫脸的试验 [3],这些试验都暗示了某个神经元可以代表代表某些物体实例(祖母细胞假说)。然则我们晓得,某个神经元本身是个简略的数学变换,其本身不克不及起到决议性的感化。CNN 等可以或许主动抽取图象特点等等性质曾经为人熟知,然则究竟是哪些神经元或许哪些构造起了感化?这个很难答复。古代年夜多半神经收集的构造是绝对全体且比拟粗拙的,很难说明其外部的详细感化机制,是以我们经常把神经收集称为 “黑盒模子”。如今有了 Capsule 后,我们也许可以以 Capsule 为单元剖析得出每一个 Capsule 详细的感化,如许可说明性要强许多。
注:从视频中看 Hinton 所说的 instantiation parameters 应当是指表征以下内容的参数:
1. 某类物体涌现的几率
2. 物体的普通姿势 (generalized pose),包含地位,偏向,尺寸,速度,色彩等等
因果性。
这是 Hinton 在视频中重点提到的,也是许多机械进修专家关怀的器械。如今的神经收集缺少某种 “揣摸” 的机制,更多是目的函数最年夜化下的函数拟合。我们晓得收集可以或许准确分类某个图片,然则为何?图片中甚么部门或许前提才招致收集得出这个结论?假如分类失足了,又是甚么详细的部门或许前提误导了它?这些我们都不长短常清晰,年夜部门时刻仅仅靠调参进步成果。而论文中 Dynamic Routing,就是愿望可以或许构成一种机制,让收集可以或许将合适 Capsule_A 处置的内容,路由到 Capsule_A 让其处置。如许就构成了某种揣摸链。 “找到最好的(处置)途径等价于(准确)处置了图象” ,Hinton 如许说明。
Hinton 指出,本来的 Pooling,相似于静态的 routing,仅仅把下面的成果原地交给上面一层的神经元。(上面图片中 Dynamic Routing 仅供表示,详细完成要看揭橥出来的论文)
无监视进修。
这点也是 Hinton 强调的(原话仿佛是 A human does not know so much labels)。Hinton 估量有在 Capsule 基本上做无监视研讨的意向,在之前的 [4] 中 Hinton 曾经用 Capsule 完成了自编码器。
若何对待 Hinton 从新提出的 Capsule ?
起首这个任务胜利或许不胜利都是很正常的,就算 Capsule 真的会成为今后的趋向,Hinton 也未必这么快找到准确的练习算法;就算 Hinton 找到了准确的练习算法,也没有人可以或许包管,Capsules 的数目不到人脑中 mini-columns 数目的时刻,可以或许起到达人类的辨认率(况且如今 CNN 固然成绩许多,然则辨认率许多曾经跨越人类了)。
别的看之前的关于 Capsules 的论文 [4],个中的成果在 2011 年照样不错的,然则比拟最近几年来的 CNN 就差多了,这生怕也是 Capsules 随后没有火起来的缘由。许多人都吐槽如今深度进修各类各样的成绩,须要年夜量调参,然则每次调参都能有一年夜批人在论文揭橥 deadline 前调到想要的后果,这个也不能不服啊;不服你用 SIFT 给你一年调到一样的后果尝尝?
也许最糟的成果是,好像散布式存储中有名的 CAP 实际(又叫 Brewer's theorem)所述,分歧性,可用性和分片性三者不克不及同时知足;也许关于机械进修,准确率,可说明性,因果性也不克不及同时知足(最好的模子必定最难懂得)。Hinton 暮年试图冲破深度进修就像爱因斯坦暮年试图同一电磁力和引力一样,是注定没法胜利的。不外信任 Hinton 依然情愿等下去,究竟从反向流传提出,到深度进修的火爆,Hinton 曾经苦守了 30 年了。
评论中有人提到,人工神经收集不用非要依照生物的门路走。我想 Hinton 重提 Capsule 的缘由不只是由于 Capsule 在生物学上有支撑,而是其有可以实行 dynamic routing 算法等的优秀性质,Hinton 在其上看到了一些能够的冲破点。
最早的神经收集作为感知机涌现的时刻是依照 Hebb's rule 进修的,可以说长短常生物了。恰是 Hinton 和 LeCun 弄出离开生物模子的反向流传算法,和 Hinton 后来基于热力学统计做的玻尔兹曼机和受限玻尔兹曼机和配套的比较散度算法,才有了深度进修的明天。