尽管近年来利用Transformer模型进行神经机器翻译(NMT)取得了巨大成功,但这些模型对输入的微小干扰仍然非常敏感,导致各种不同的错误。为了解决这一问题,谷歌研究院的一篇ACL 2019论文提出了一种方法,即使用生成的对抗性样本来提高机器翻译模型的鲁棒性,从而防止输入中存在的细小扰动度对其造成影响。在这篇名为《Robust Neural Machine Translation with Doubly Adversarial Inputs》的论文中,作者Yong Cheng、Lu Jiang和Wolfgang Macherey介绍了他们在ACL 2019上发表的工作。
近年来,由于Transformer模型在神经机器翻译方面取得了巨大的成功,它们通常被用于端到端训练,而不需要显式语言规则。但是,这些模型对于微小干扰仍然非常敏感,这可能导致翻译不足、过度或错误。此外,由于缺乏鲁棒性,使得这些模型难以应用于商业系统,因此学习一个鲁棒的NMT模型既有价值又是许多实际场景所需。
然而,在计算机视觉领域,对学习鲁棒性的研究广泛开展,但相关文献中的研究却很少。因此,该团队提出了一个方法,即使用生成的对抗性样本来提高机器翻译模型的鲁棒性,以防止输入中存在的小变化引起错误。这项工作基于一种称为AdvGen算法,它能够有效地实现训练集多样化及扩展,并且不依赖鉴别网络,而是在简单地将对抗性样本反馈给Transformer进行防御训练。
该方法分为两步:首先使用AdvGen干扰目标输出句,然后将这个生成出的对抗语句反馈给Transformer进行防御阶段。在防御阶段,对抗语句作为源句子被反馈给Transformer,再次计算损失。如果出现显著损失,则最小化损失;否则,不会发生任何改变。通过将该方法应用于标准汉英和英德基准测试数据集,我们观察到了BLEU值分别提高2.8和1.6,与竞争性Transformer相比获得新最佳性能。
总之,该论文展示了一种新的方式,将深入理解自然语言处理任务与强大的技术结合起来,为未来更好的自动化解释提供了可能性。而且,这种方法可以帮助我们更好地理解如何设计更加健壮、可靠的人工智能系统。