虽然我们现在拥有工具来收集大量的大型语言模型(LLM)训练数据,但人类的参与对于清洗、分析和标记数据至关重要,这样才能确保获取到真正所需的数据。
亚马逊的高级数据科学家最近报告指出,“网络上有惊人数量的内容是通过机器翻译成多种语言的”。而且,这些多向翻译的质量通常较低。而且,这些多向翻译的质量通常较低。也可以说,不出所料,那些涉及多种数量语言的多向并行翻译,与双向并行翻译相比,翻译质量明显更低。研究人员表示:“一个句子被翻译成的语言越多,其翻译质量就越低,这表明机器翻译的普遍性更高。”除了网络资源较少的语言存在这种问题,其他网络资源较多的语言翻译中也普遍存在的问题。这些低质量翻译“在整个网络内容占据很大一部分”。事实上,这种趋势在八个语言对方向上是一致的:
-
英语→德语
-
德语→英语
-
法语→德语
-
德语→法语
-
英语→日语
-
日语→英语
-
英文→中文
-
中文→英文
这些发现意味着什么?它们引发了对从网络抓取而来的大型语言模型(LLM)训练数据质量的“严重担忧”。如果训练数据来源于低质量的机器翻译,那么由此构建的LLM及其基于的AI创新可能会效果不佳,甚至不值得信赖。数据科学家强调,数据质量在LLM培训中“至关重要”,并指出现代人工智能得益于大量的训练数据 — 数千亿甚至数万亿的词汇量。只有通过网络抓取的数据,这样大规模的训练才成为可能,但是机器翻译内容的普遍性 — 特别是在资源较少的语言中 — 可能会导致模型流畅度降低,出现更多的错误。以下是我们的首席技术官Gert Van Assche对这项研究的评价:
“谢谢你,#亚马逊:终于有了科学证据证明我们在#SummaLinguae上也注意到的现象:多语言版本的网页(多向并行数据)很少是人类 #翻译或人类审核的结果#。科学家们观察到这一点主要在资源较少的语言中,但我不会感到惊讶,如果所有语言都是如此。然而,论文最后一段的建议可能是最佳的。只需看一看。”
大型语言模型训练数据:人在回路(Human-in-the-Loop)方法
数据工程师和解决方案架构师这样的角色在语言解决方案提供商处变得司空见惯,这是有原因的。语言服务提供商(LSP)亲身经历了开发AI技术的挑战,并且正在增加内部技术专家,来支持必要的数据解决方案。虽然现在有工具可以收集大量数据,但人类的参与对于清洗、分析和标记数据至关重要,以确保您获得确切所需的数据。当然,您希望在降低成本的同时,还要在竞争对手之前将创新产品推向市场。并且您希望做得既出色又迅速。因此,您可以选择自动化数据收集,这就会错过确保质量和准确性的重要人类接触点。您也可以廉价地外包收集和标记工作,这样会不清楚方向和公平补偿地处理数据。可您需要的是专门的、人工协助的数据收集和注释,而不是全面快速的解决方案。这样做可以为您长期节省资金,并确保您得到确切所需的东西。
不要满足于简单的数据抓取
作为一家拥有数据专长的语言解决方案提供商,我们的角色是突出展示我们可以如何定制您的数据集,同时也引导您选择最有效和最具成本意识的收集选项,以满足您的解决方案需求。我们目前支持80多种语言和200多种不同的语言对。我们分析大型训练数据集,通过注释、标记和打标签来检测导致问题的模式,以此来丰富数据。让我们的语言学家和主题专家团队用干净的数据来提升你的人工智能,为机器学习以及产出的评估提供支持。
(机器翻译,轻度译后编辑,仅供参考)编辑:王隽雅