在最新的研究成果中,CapsNet的创造者Sara Sabour与Geoffrey Hinton以及牛津大学的一位研究者合作,在一篇名为《Stacked Capsule Autoencoders》的论文中提出了一种对胶囊网络进行改进的方法。这种新的胶囊网络能够无监督地学习图像中的特征,并且取得了前所未有的最优成绩。
一个物体可以被看作是由多个相互关联的几何部分构成,因此,如果一个系统能够利用这些几何关系来识别物体,那么它就应该在面对视角变化时表现出更高的鲁棒性,因为内在的几何结构不会随着视角变化而改变。
在这篇论文中,他们提出了一个无监督版本的胶囊网络,该网络通过使用神经编码器来推断物体中的部件及其位置和姿态。该编码器通过反向传播训练,并使用混合姿势预测方案来预测已经发现部件的姿态。同样的神经编码器还能直接从图像中识别出具体部件,每个相应图像像素都可以被建模为仿射变换部分做出的混合预测结果。
他们利用未标记数据集来学习对象及其部分,然后将这些学习到的特征用于聚类物体内部存在向量。这项工作取得了非常显著的地面效果,在SVHN上实现了55%无监督分类准确率,而在MNIST上达到了接近98.5%的人工智能模型性能。
这个全新的胶囊网络被称为Stacked Capsule Autoencoder(SCAE),其主要包括两个阶段:Part Capsule Autoencoder(PCAE)和Object Capsule Autoencoder(OCAE)。PCAE负责将图像分割成组件并推断它们的姿态,并将重构后的图片转换回原来的部件模板;而OCAE则尝试将已知部件及其姿势组合到更小的一个对象集合中,再结合针对每个部件不同的混合预测方案解释它们之间如何摆放。
每个物体胶囊都是通过把OV乘以OP得到,这样就能提供这些混合元素所需的一致性。在没有任何标记信息的情况下,对SCAE进行训练时,它捕捉到了整个对象及其各自部门之间复杂空间关系链条。
总之,这项工作最大的贡献是在提出一种全新表示学习方法,其中高度结构化可用于训练编码器网络,将图片分割成为有意义的小块,同时另一个编码器网络则可以把这些小块整合到一起形成完整形象。尽管这个系统不依赖于MI,但仍然能够展现出竞争力,无需额外信息或辅助任务即可完成目标任务。这使得它成为目前唯一一种在无监督条件下达到如此高水平性能的情况之一。