上海砍人2022最新资讯CapsNet再升级夸张无监督学习图像特征超越人类智能取得了史诗般的最先进成

在《Stacked Capsule Autoencoders》一文中,Sara Sabour、Geoffrey Hinton以及牛津大学的研究者提出了一个胶囊网络的新版本,该网络能够无监督地学习图像特征,并取得了最先进的效果。文章指出,物体可以被看作是由相互关联的几何组成部分构成,因此识别物体时利用这些几何关系应该具有对视点变化的鲁棒性,因为内在几何关系不会随着视点变化而改变。

论文中提出了一种无监督胶囊网络,它通过一个神经编码器来推断物体胶囊的位置和姿势,这个编码器通过反向传播训练并使用混合姿势预测方案来预测已发现部件的姿势。同样地,通过神经编码器推断部件及其仿射变换,可以直接从图像中检测到具体部件,每个相应图像像素都模型化为仿射变换部分做出的混合预测结果。

研究者们使用未标记数据来学习物体及其部分胶囊,然后对物体胶囊存在向量进行聚类。在SVHN上,该方法获得了最先进的无监督分类结果(55%),同时,在MNIST上也达到了接近最先进分类结果(98.5%)。

该胶囊网络称为Stacked Capsule Autoencoder(SCAE),分为两个阶段:Part Capsule Autoencoder(PCAE)和Object Capsule Autoencoder(OCAE)。PCAE负责将图像分割成组件,并推断其姿势,将图像像素重构为转换后的部件模板像素的混合产物;OCAE则试图将发现的部件及其姿势组合成更小的一组对象,再结合针对每个部件的情景预测方案解释其姿势。

每个物体胶囊通过将OV乘以OP,为这些混合材料提供结构。SCAE在未标记数据上进行训练时捕获整个物体及其部之间空间关系。

总结来说,该工作主要贡献于一种全新的表示学习方法,其中高度结构化可用于训练编码器网络,将图象分割成相关部门与其状,而另一个编码器网络则将这些部门融合形成连贯整体。尽管不涉及分类/聚类目标,但SCA依然是唯一能在无监督对象分类任务中不依赖于互信息MI就能获得竞争力的方法。这项工作证明了深度学习模型可以有效地自我组织,从噪声图片中学到有用的信息,而不需要任何额外的人工干预或手动标注过程。这项技术可能会带来重大突破,使得AI能够更加高效、自动化地理解复杂环境中的对象和场景。