CVPR 2019口头报告背后的秘密无监督域适应语义分割之谜

《无监督域适应语义分割：CVPR2019口头报告背后的秘密解析》

在雷锋网AI科技评论的深度探究下，我们揭开了百度研究院、华中科技大学和悉尼科技大学合作的最新论文《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》的神秘面纱。这篇被CCF A类学术会议CVPR2019收录为Oral论文的杰作，旨在解决传统方法无法有效利用虚拟场景标注数据进行现实场景语义分割的问题。通过提出一种从“虚拟域”到“现实域”的无监督算法，这项研究大幅降低了人工标注成本。

文章首先回顾了深度学习语义分割领域的挑战，其中最关键的一点是缺乏足够的人工标注数据来训练模型。尽管计算机生成虚拟图像提供了一种几乎无成本获取自动标注数据的途径，但由于源域（如3D游戏）与目标域（如真实世界）的视觉差异导致模型泛化能力受限。

为了克服这一难题，一些方法采用对抗学习策略，将网络结构扩展以包含一个判别器(D)。然而，传统方法仅能减少全局特征分布之间的差异，而忽视不同语义特征间的一致性。在这种情况下，即使目标域中的某个类别与源域中的同一类别在视觉上相似，但也可能因为全局对齐而导致错误分类。

针对这些问题，本文提出了Category-Level Adversarial Network (CLAN)，这是一种结合了联合训练和对抗学习思想的新型网络架构。在CLAN中，我们引入了互斥分类器，以评估目标域特征是否已经达到本地语义一致性。当两个分类器预测一致时，我们认为该特征已达到了较高级别的一致性，因此需要减少其对于全局对齐过程产生影响；当预测不一致时，则加强对齐力度，以促进快速达到本地语义一致。

实验结果表明，在GTA5到Cityscapes和SYNTHIA到Cityscapes两种常见迁移任务中，CLAN都能实现state-of-the-art性能，并且显著提高了不常见类别，如交通标志等，对于实际应用具有重要意义。本文还展示了一系列T-SNE可视化图表，进一步证明我们的算法能够有效避免负迁移，并维持或甚至增强原有类别之间的一致性。

总结来说，《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》成功融合了解决方案，从而推动了无监督领域自适应语义分割技术发展，为未来自动驾驶系统等应用提供了新的可能性。