在最新的研究成果中,CapsNet的创造者Sara Sabour与Geoffrey Hinton以及牛津大学的一位研究者合作,在一篇名为《Stacked Capsule Autoencoders》的论文中提出了一种对胶囊网络进行改进的新方法。这种改进后的胶囊网络能够无监督地学习图像中的特征,并且取得了前所未有的最先进结果。
根据这篇论文,一个物体可以被视为由多个相互关联的几何组成部分构成,因此,利用这些几何关系来识别物体的系统应该对视点变化具有很强的鲁棒性,因为内在的几何关系不会随着视点变化而改变。
在这项工作中,他们提出了一个无监督版本的胶囊网络,该网络通过使用可见所有部件的神经编码器来推断物体中的部件位置和姿态。该编码器通过反向传播训练,以混合式姿势预测方案来预测已发现部件的情景。此外,该编码器还能够直接从图像中识别出具体部件,每个相应图像像素都被建模为仿射变换部分做出的混合预测结果。
他们利用未标记数据集学习到物体及其部分,使得每个物品和其部分都有了自己的存在向量,然后将这些向量进行聚类。这项技术不仅在SVHN上获得了最先进无监督分类成绩(55%),而且在MNIST上也达到了接近最先进水平(98.5%)。
这个新的胶囊网络称作Stacked Capsule Autoencoder (SCAE),它分为两个阶段:Part Capsule Autoencoder(PCAE)和Object Capsule Autoencoder (OCAE)。PCAE负责将图像分割成组件,并推断其姿态,同时重构图像像素到转换后的部件模板上的混合产物;OCAE则尝试将发现的小组对象及其姿势结合起来,再采用针对每个部件的情景预测方案解释它们的情景。
每个对象胶囊通过乘以相关对象-部门-情景(OV)与相关部门-部门-情景(OP)来提供给这些混合元素适当的情景。SCAE 在没有标记数据集的情况下进行训练时,就能捕捉整个物品及其部门之间空间关系。
总之,这项工作主要贡献于一种全新的表示学习方法,其中高度结构化,可以用于训练编码器网络,将图像分割成相应部门及其姿态,而另一个编码器网络则可以把这些部门结合起来形成连贯整体。尽管训练目标并不涉及分类或聚类,但 SCAE 依然是唯一一种,在无监督对象分类任务中,不需要互信息(MI)就能取得竞争力的方法之一。在 https://arxiv.org/pdf/1906.06818.pdf 这篇文章里,我们可以进一步了解这一革命性的技术如何实现这一壮举。
via https://arxiv.org/pdf/1906.06818.pdf
雷锋网 AI 科技评论