2024年1月11日,亚马逊的Brian Thompson、Mehak Preet Dhaliwal、Peter Frisch、Tobias Domhan和Marcello Federico发表了一篇调查网络机器翻译(MT)普及度和质量的论文。 他们发现“令人震惊的多语言网络翻译”,而这些多语言翻译的质量通常较低,突显在训练大型语言模型(LLMs)时考虑数据质量和来源的重要性。 研究人员表示,这种多语言并行的机器生成内容不仅在低资源语言的翻译中普遍存在,而且构成了“总网页内容的大部分”。 为了分析机器翻译内容的特征,该团队创建了一个名为Multi-Way ccMatrix(MWccMatrix)的大型多语言并行语料库,包括90种语言中64亿个独特的句子。 该语料库由翻译元组组成,包含两个或更多在不同语言中互相翻译的句子。他们研究了多语言并行的模式,即直接从三种或更多语言互相翻译的句子集。 低质量 分析显示这些多语言翻译的质量通常较低。具体而言,多语言并行翻译,尤其是涉及大量语言的情况,与二语言并行翻译相比,质量显著较低。 研究人员表示:“一句话被翻译成的语言越多,翻译质量就越低,这表明机器翻译的普遍性较高。” 这一趋势在考虑的所有八个语言对方向上都是一致的,包括英语→德语,德语→英语,法语→德语,德语→法语,英语→日语,日语→英语,英语→中文和中文→英语。 研究人员发现存在对“较短和更可预测的句子”的选择偏见。他们观察到这些句子主要来自质量较低的文章,并指出这种对来自质量较低文章的短句的偏见是由于“低质量的英语内容通过机器翻译被大量翻译成许多资源较低的语言。” 此外,多语言并行数据有不同的主题分布。他们雇用专业语言学家对英语句子的随机样本进行分类,并发现将2语言并行数据与8个以上语言并行数据进行比较时主题分布发生了显著变化。 亚马逊的研究人员提出,这些发现对于多语言模型构建者和LLM的训练具有重要意义,对于从包含低质量机器翻译的网络抓取内容获取的LLM训练数据提出了“严重关切”。 他们强调在LLM训练中数据质量是“至关重要”的,并指出现代人工智能是通过大量的训练数据实现的,通常是数百亿到数万亿个标记,使得仅仅通过网络抓取的数据进行这样规模的训练成为可能。机器翻译内容的普及,特别是在资源较低的语言中,可能导致模型不够流利且出现更多的幻觉。 针对这些挑战,研究人员提出机器翻译检测可能有助于过滤资源较低语言中的单语文本,并且多语言并行性是检测低质量机器翻译数据的一种有希望的方式,特别是在资源较低的语言中。 为促进进一步的探索和分析,研究人员已发布了重现语料库和研究的代码。 (机器翻译,轻度译后编辑,仅供参考。)
编辑:刘煜珍