Meta的大规模多语言翻译作品仍然在希腊语、亚美尼亚语和奥罗莫语上遇到了困难

Meta's large-scale multilingual translation project still encountered difficulties with Greek, Armenian, and Oroko languages.

“广泛可访问的机器翻译系统支持约130种语言;我们的目标是将这个数字提高到200种,”作者们在他们的使命声明中写道。

Facebook、Instagram和WhatsApp的所有者Meta在周三发布了他们在机器翻译方面的最新努力,这是一本190页的著作,详细描述了他们如何使用深度学习形式的神经网络将语言的最新翻译技术提高了一倍,达到了202种语言,其中许多是所谓的“低资源”语言,如埃塞俄比亚的奥罗米亚州的奥罗莫语、阿尔及利亚和北非其他地区讲的塔马舍克语以及菲律宾华莱士人的华莱士语。

Meta的研究团队与加州大学伯克利分校和约翰斯·霍普金斯大学的学者合作撰写了一份名为“没有语言被遗漏:扩大以人为中心的机器翻译”的报告,该报告发布在Facebook的人工智能研究网站上,还有一篇相关的博客文章,这两篇文章都值得仔细阅读,详细介绍了这个问题。

“广泛可访问的机器翻译系统支持约130种语言;我们的目标是将这个数字提高到200种,”他们在他们的使命声明中写道。

如果想了解简要内容,请查看ENBLE的Stephanie Condon的概述报告。正如Stephanie所述,Meta正在GitHub上开源其数据集和神经网络模型代码,并提供20万美元的奖励给外部使用该技术的人。该公司与维基百科的所有者维基媒体基金会合作,为维基百科文章提供改进的翻译。

此外:Meta的最新AI模型将使内容在数百种语言中可用

报告中一个意外发现是,尽管在更大范围的语言组上通过自动评分系统有了可衡量的改进,但在人工评估翻译质量方面,研究人员的神经网络(亲切地称为“没有语言被遗漏的两百”或NLLB-200)在许多语言情况下并没有显示出太大的改进,包括奥罗莫语等低资源语言以及希腊语和冰岛语等有大量翻译材料的语言。

这说明尽管能提高平均得分,但在创建有意义的翻译方面(至少从人的角度来看),并不能简单地自动化。作者们发现,当他们扩大他们的神经网络规模时(这应该意味着更强大),在将英语句子翻译成其他语言时,他们实际上发现了递减回报,并且在非英语句子之间进行翻译时产生了一些负面效应。

团队采取了许多措施来改进翻译,其中包括对低资源语言的数百名母语者进行访谈-平均访谈时间为一个半小时-以评估说话者的需求和关切。(关于这样的实地工作的伦理以及吸引过多关注可能会淹没低资源语言的伦理问题有详细讨论,这篇论文中的讨论值得特别关注。)

此外:谷歌大规模的语言翻译工作确定了哪里出错

但这项工作的核心是他们为训练他们的神经网络编制了一个新的数据集,甚至发明了一种新方法-他们将这些方法作为源代码提供-来对Web材料进行语言识别,以确定哪些测试属于哪种语言。

他们使用自动化方法为所有目标语言编制了一组双语句对的数据集。这个数据集有一些非常令人兴奋的统计数据:

总共有1220个语言对或2440个方向(xx-yy和yy-xx)用于训练。这2440个方向的句子总数超过180亿[…]大多数句子对的数量少于100万个,是低资源方向。

作者们使用这些数据来训练NLLB神经网络,但他们还使用了由人类翻译员构建的手工数据集进行训练。人类因素——“NLLB-SEED”数据集——被证明是非常重要的。“尽管公开可用的训练数据规模要大得多,但在平均性能上,通过NLLB-Seed进行训练会产生明显更高的表现,”他们写道。

NLLB项目包括多个步骤,首先是搜索公开可用的双向文本语料,通过自动化方法识别语言,创建大规模训练数据集,训练NLLB-200神经网络,然后使用人工翻译者创建的新基准数据集FLORES-200进行评估。

需要注意的是,Meta团队并不是唯一一个进行大规模数据集努力的团队。今年5月,谷歌科学家们展示了一种类似的大规模多语言项目,他们能够在超过200种语言中从网络上搜集到一百多万个句子,以及超过400种语言中的40万多个句子。

这些训练数据集被用来构建他们的神经网络NLLB-200。他们起点是使用了谷歌的普遍存在的Transformer语言模型,该模型是当今大多数语言翻译的基础。

他们使用了一个拥有540亿个参数的Transformer,虽然不算巨大(一些模型已经接近万亿参数),但他们进行了关键的修改。

在网络的各个层之间,也就是所谓的”注意力头”之间,作者插入了一种称为”稀疏门控混合专家”的条件执行分支。基本上,专家可以选择在进行预测时关闭或打开其中的一些540亿个参数,使得神经网络在每个任务中都可以改变其性质。

他们解释说:”稀疏门控混合专家(MoE)模型是一种条件计算模型,每个输入激活一部分模型参数,而不是密集模型中每个输入都激活所有模型参数。”他们解释MoE的价值在于,它们”在保持相同的推理和训练效率(以FLOPs为单位)方面,释放了巨大的表征能力,与核心密集架构相比,没有显著的推理和训练效率损失。”

NLLB-200网络在Transformer模型的标准注意力块之间插入了”混合专家”元素。

(作者甚至找到了这种方法的最佳应用点:”在每4个Transformer块之间插入MoE层能够取得最佳性能,特别是在资源非常有限的情况下能够提高性能。”)

除了训练集之外,作者还开发了一个新的基准数据集FLORES-200,这是一个高质量的多对多基准数据集,将之前的Flores-101项目的语言覆盖范围翻倍。该数据集是由专业的人工翻译人员将FLORES源数据集翻译成目标语言,并由独立的翻译评审员对人工翻译进行质量评估并提供翻译反馈。

然后,他们测试了NLLB在FLORES-200上的表现。

正如上面的摘要中提到的那样,根据BLUE和chrF等常用自动化评分,与之前的翻译程序相比,NLLB-200的改进达到了44%。作者对这些评分的不同版本进行了广泛的比较。

除了自动化评分之外,作者还让人们阅读翻译并对其进行评分,这就是一些问题的出现之处。Meta团队使用了Eneko Agirre和同事于2012年提出的一个称为”语义文本相似度”的评估协议的变体,称为”XSTS”,他们在今年5月的一篇单独的论文中介绍了这个变体。

XSTS要求人们按照1到5的等级对翻译进行评分,其中1表示最差,两个句子之间没有任何关联,而5表示最好,它们在意义上基本上是相同的。

他们写道:”简而言之,XSTS是一种以意义保留为重点的人工评估协议,而不是流畅度。”他们进一步解释说:”对于资源稀缺的语言,翻译通常质量较低,因此我们更加关注可用的(保留意义的)翻译,即使它们不完全流利。”

总体得分与基准Transformer在英语和其他语言之间进行翻译时的表现相比并不差,但他们在一个语言对中实际上看到了更差的结果,即从英语翻译为希腊语:

总体而言,NLLB-200在从英语到其他语言的XSTS评分上平均得分为4.15,在从其他语言到英语的XSTS评分上平均得分为3.75。与基准密集模型相比,NLLB-200的性能更强。某些方向存在显著差异,例如rus_Cyrl-tgk_Cyrl [俄语到塔加洛语]和eng_Latn-gla_Latn [英语到苏格兰盖尔语]。我们还注意到,除了eng_Latn-ell_Grek [英语到希腊语]这个方向稍微差一些外,NLLB-200在所有测试方向上都优于基准。

但是深入挖掘一下,更多的裂缝就会出现。这样一个巨大的努力是一个统计企业,而对于任何统计企业来说,比平均值或中位数更具启示性的是分数的分布。

在许多语言对中,例如亚美尼亚语到英语,以及西中央奥罗莫语到英语,以及埃塞俄比亚最常用的语言阿姆哈拉语翻译成亚美尼亚语,以及法语翻译成塞内加尔沃洛夫人的母语沃洛夫语,以及印地语翻译成恰蒂斯加尔语,这是印度中央邦的一种主要语言,他们发现与基准模型相比几乎没有任何改进。

裂缝出现在人工评审员发现一些语言对从NLLB-200创新中几乎没有或根本没有受益的地方,包括亚美尼亚语翻译成英语和埃塞俄比亚最常用的语言阿姆哈拉语翻译成亚美尼亚语。英语翻译成希腊语的结果甚至比基准模型更糟糕。

这些孤立的例子在成功案例中突然出现,例如俄语翻译成塔加洛语(菲律宾的一种主要语言)的巨大改进,这些例子指向了一些更深层次的真相,科学家们对此进行了反思。

在不解释人类评估的情况下,作者们观察了自动BLUE和chrF分数的失败案例,并对他们的方法提出了一些限制或缺陷的假设。

他们写道,具有大量资源的语言对,包括希腊语,可能不会从混合专家方法的添加中受益,或者他们的程序变得如此强大,以至于它们遇到了”过拟合”的问题,即神经网络仅仅记住了一些例子,而没有形成有益的表示——这意味着它实际上什么都没有”学到”。

正如作者所说,

高资源对很可能在13亿[参数]密集模型中具有足够的容量(考虑到我们的消融数据集的大小和性质),并且不会从MoE模型的额外容量中获益。随着每次更新的计算成本的增加,低资源或非常低资源对过拟合的倾向增加,从而导致性能下降。

作者提出了一些可以采取的步骤来减轻过拟合,例如对各种输入进行”屏蔽”和在专家混合中进行”条件路由”。

此外:小心了,GPT-3,AI21的”侏罗纪”语言模型来了

报告中还有许多关于各种实验设置的细节,无法总结所有的发现。可以说,作者希望开源路线和20万美元能够说服”社区审查当前的实践,并在不留下任何语言的北极星目标的使命中改进”。

特别是,精心策划的翻译数据集FLORES-200使用专业翻译人员进行组装是昂贵的。他们观察到,将来将更多低资源语言纳入FLORES-200的范围可能会很困难。

总的来说,他们得出结论,多学科的方法将是重要的,

与更大的科学和研究社区分享NLLB将使具有不同专业知识的人能够为该项目的进展做出贡献。在许多方面,NLLB的组成反映了跨学科在塑造我们的愿景中的核心地位。机器翻译处于技术、文化和社会发展的交叉点,因此需要具有不同培训和观点的学者来全面理解每个角度。我们希望在未来的迭代中,NLLB能够继续扩大,包括来自人文和社会科学背景的学者。更重要的是,我们希望开发此类倡议的团队来自各种种族、性别和文化身份,就像我们希望改善生活的社区一样。