尽管近年来利用Transformer模型进行神经机器翻译(NMT)取得了巨大成功,但NMT模型对输入微小干扰的敏感性仍然是一个问题,导致各种错误的发生。谷歌研究院在ACL 2019上发表的一篇论文提出了一种方法,通过生成对抗性样本来提高机器翻译模型的鲁棒性,防止输入中细小扰动对其造成影响。该方法被证明可以提升NMT模型在标准基准上的性能。在这篇文章中,我们将深入探讨Yong Cheng、Lu Jiang和Wolfgang Macherey所著《具有双对抗性输入的鲁棒神经机器翻译》论文中的内容。
Robust Neural Machine Translation with Doubly Adversarial Inputs
随着Transformer模型在神经机器翻译领域取得显著成就,这类基于深度学习的系统通常是通过大量并行语料库的大规模数据驱动训练完成,而无需明确语言规则指导。此外,由于这些模型对于微小干扰非常敏感,它们可能会产生多种不同的错误,如不足或过度翻译,以及严重错误。例如,对德语句子“Der Sprecher des Untersuchungsausschusses hat angekündigt, vor Gericht zu ziehen, falls sich die geladenen Zeugen weiterhin weigern sollten, eine Aussage zu machen”,最先进的Transformer NMT模式将其正确地翻译为英语:“The spokesman of the Committee of Inquiry has announced that if the witnesses summoned continue to refuse to testify, he will be brought to court.”
然而,当我们以微小变化替换源句子中的词汇,比如从geladenen改为vorgeladenen时,结果就会变得完全不同且可能出现错误:"Der Sprecher des Untersuchungsausschusses hat angekündigt, vor Gericht zu ziehen, falls sich die vorgeladenen Zeugen weiterhin weigern sollten, eine Aussage zu machen." 这个例子中由“geladenen”替换为“vorgeladenen”后的英文翻译结果已经与原始句子的意思不符了:“The investigative committee has announced that he will be brought to justice if the witnesses who have been invited continue to refuse to testify.”
由于缺乏鲁棒性的NMT模式,在许多不能容忍其非鲁棒性的商业环境下难以实现实际应用,因此学习一个更具坚韧力的转换方案既有价值又是广泛需求。本文提出一种使用生成对抗样本增强机器翻译系统鲁棒性的新方法,以抵御输入数据中的微妙差异引起的问题。在我们的实验中,我们发现这种方法能够显著提高标准基准测试中的性能,并超越了竞争力相似的Transformer模式。
为了实现这一点,我们使用了一种称作AdvGen算法,它根据目标输出句、源句和单词选择分布构造出一系列能有效挑战当前最佳预测结果的情境。这项工作基于GANs思想,但避免了复杂网络结构,从而简化了整个过程。当这个算法用于创建潜在问题情境时,它首先计算出每个单词选择概率,然后根据这些概率进行随机选择,以构建一个新的假设情景。如果这个新的情景导致误导式预测,那么它被用来更新原有知识结构,使之更加坚韧和灵活。
图1展示了解决方案的一个关键步骤,其中来自原始信号处理网络(RNN)的信息流程与来自自适应反馈网络(AEN)的反馈信息流程结合起来,以便形成一个全面的理解空间。在此基础上,该解决方案进一步扩展到包含另一种类型信息流程——基于注意力的序列到序列编码-解码架构(seq2seq)。
图2描述了如何利用特定场景下的知识结构调整以优化解决方案。一旦适当地调整后,这种能力就能帮助我们更好地理解现实世界的情况,并提供更加精确和可靠的预测。
最后,本文还详细分析了一些具体案例,将理论上的概念付诸实践并展示如何使我们的解决方案成为实际应用程序的一部分。此外,还包括一些关于未来工作方向以及需要进一步研究的问题讨论。