尽管近年来利用Transformer模型进行神经机器翻译(NMT)取得了巨大成功,但是NMT模型对输入的微小干扰仍然很敏感,从而导致各种不同的错误。谷歌研究院的一篇ACL 2019论文提出了一种方法,使用生成的对抗性样本来提高机器翻译模型的鲁棒性,防止输入中存在的细小扰动度对其造成影响。结果表明,该方法提高了NMT模型在标准基准上的性能。在本文中,我们将探讨该论文《具有双对抗性输入的鲁棒神经机器翻译》中的主要内容。
如何确保我们的机器翻译系统不仅高效,而且能适应不同环境下的挑战?为了回答这个问题,我们需要了解目前最先进的人工智能技术——神经机器翻译(NMT),以及它面临的一个关键问题:鲁棒性。
虽然基于深度学习和特别是Transformer架构的人工智能技术已经被证明能够在多个任务上实现卓越表现,但它们仍然依赖于大量高质量数据集,以便能够学到并推广到新的、未见过的情况。这意味着,如果这些系统遇到了它们没有训练过或接收过信息时可能遇到的任何形式的小差异,它们就可能会出错。
例如,让我们考虑一个德语句子,并将其通过最新版本的Transformer进行英语翻译:
"Der Sprecher des Untersuchungsausschusses hat angekündigt, vor Gericht zu ziehen, falls sich die geladenen Zeugen weiterhin weigern sollten, eine Aussage zu machen。"
正确地转换为英文,这句话应该是:"The spokesman of the Committee of Inquiry has announced that if the witnesses summoned continue to refuse to testify, he will be brought to court."
然而,当我们稍微改变原句的一个词汇,比如从"geladenen"替换为同义词"vorgeladenen"时,结果变得完全不同:
"Der Sprecher des Untersuchungsausschusses hat angekündigt, vor Gericht zu ziehen, falls sich die vorgeladenen Zeugen weiterhin weigern sollten, eine Aussage zu machen。"
这次正确地转换成英文应当是:"The investigative committee has announced that he will be brought to justice if the witnesses who have been invited continue to refuse to testify."
由于当前用于商业应用程序的大型语言处理系统缺乏足够的鲁棒性,因此他们往往不能直接用于实际操作中。此外,在计算机视觉领域已经有许多关于提高深层网络在噪声环境中的稳定性的研究,但相关文献对于学习鲁棒化后的神经机器翻程还相较少见。
《Robust Neural Machine Translation with Doubly Adversarial Inputs》一文提出了一个解决方案,即使用生成式反向样本来增强神经传输模型,使之更加抵御微小扰动。在这里,我们采用一种名为AdvGen算法的方法,它可以有效地创建可信且充满潜力以破坏现有预测模式的一组样本,然后将这些样品反馈给训练过程以帮助防御这种类型变化。
首先,我们使用AdvGen与目标输出句和目标输入句一起计算损失,然后选择一些源单词作为攻击点,并假设它们分布均匀。如果选定的单词与列表中的某些单词关联紧密,那么AdvGen会从列表中选择一个最有可能引起错误发生的事物。然后,将此生成式敌手语料反馈给Transformer,它再次计算损失,只不过现在它是在用敌手源输入。这两步骤共同构成了图1所示的情景。
图1
下一步,是让Transformer再次接受这些来自敌手源数据集产生得更好的输出,而不是原始输出,因为如果攻击者想要找到一种方式使他无法做出准确判断,他必须根据他的知识尽量减少损失。
最后,将所有这些东西放入变量X2 中并求解这个变量X2 的值,使得总体平均值最低,同时保持每个元素都尽可能接近总体平均值。
因此,根据我们的新发现,对于希望获得更好的结果而不是简单靠猜测进行测试的话,可以通过分析已知情况开始改善性能。在实际应用场景中,对于那些拥有大量历史数据但又需要不断更新以适应新的需求或挑战的情况来说,这是一个非常重要的问题。
当然,还有一些其他因素也被认为可以改善这一过程,如增加更多训练数据或者调整参数等。但无论采取哪种措施,最终目的都是要创造一个既灵活又稳健、既能快速适应新情况,又能坚守基本功能不受干扰的手段。而且,由于人工智能正在迅速发展,所以理解和掌握如何建立这样一个工具至关重要,以确保我们能够最大限度地利用这一技术,为社会带来益处,同时避免潜在风险。