从商业通信到社交媒体互动,沟通的语气和正式程度在不同语言和内容类型中往往有很大的差异。这给翻译带来了困难,尤其是在处理具有不同正式程度的语言之间的翻译时,困难尤为明显。
大型语言模型(large language models,简称LLMs)为解决这一问题提供了一个很有前景的解决方案。这些由人工智能驱动的翻译工具可以自动且准确地转换正式程度,从而减少对人工翻译的依赖。
翻译过程中正式程度带来的挑战
在翻译中,传达正确的意义不仅仅是简单的词汇替换。在许多语言的语法结构中,语言的正式程度占有重要地位。例如,西班牙语、法语和日语等语言在正式和非正式的交流中有不同的动词变位和代词。这就给英语等语言的翻译带来了一个独特的问题,在英语等语言中,正式性通常是通过词汇和语气而不是语法来表达的。
以往,人类译者会手动调整翻译以符合所需的正式程度,确保像“你好吗?”这样的问候语在西班牙语中根据上下文被适当地翻译为“¿Cómo estás?”(非正式)或“¿Cómo está usted?”(正式)。
如果原语缺乏明确的标记正式程度的语法,那么一段原语可以被准确地翻译为多段译语,且具有不同的正式程度。此外,有时公司希望改变其翻译的正式程度,将原语重新翻译为一段不同正式程度的译语,目前做到这一点花费昂贵且需要人工处理。
Welocalize的自然语言处理工程师、经验丰富的语言学家Vera Senderowicz Guerra解释道:“在许多语言中,正式程度是通过语法结构而不仅仅是词汇传达的。虽然自动化词汇正式程度的调整具有显著挑战,但在最小化人工干预的情况下,解决语法正式程度的问题更为复杂。选择的模型不仅需要识别正式/非正式词汇,将其转换为非正式/正式词汇,还需要确保句子中所有同一语式时态的语法变形保持一致。对于许多母语者来说,这都是一项复杂的任务,更不用说对于一个自动化系统了。”
利用LLMs调整正式程度
LLMs的出现为翻译中自动化调整正式程度创造了新的可能性。用于处理和生成类人文本的LLMs可以通过微调来自动调整翻译内容的正式程度。这一创新有望提高跨语言翻译的一致性和准确性,减少对人工后期编辑的需求。
“我们正在探索生成式AI的一种创新应用,以将双语内容的目标段从正式语域调整为非正式语域。我们的方法是,识别每个目标语言中区分正式程度的关键语法结构和变形,从而在保持准确性的同时,将目标段转换为非正式语气。”(Welocalize自然语言处理工程师Vera Senderowicz Guerra)
基础LLMs从大量数据集中学习,这些数据集有不同的沟通类型,包括正式的商务文件和非正式的社交媒体帖子。因此,LLMs可以成功实现正式程度的转换,而传统神经机器翻译做不到这一点。尽管需要先进的指令工程技术来实现LLMs的最佳性能,但没有广泛的模型训练,它们仍然可以转换。
实验设置和结果
Welocalize在营销和酒店行业进行了实验,以英语为原语,主要翻译为罗曼语族语言,如西班牙语、法语和意大利语。研究结合使用了专有的基于BERT的文本分类(BERT,Bidirectional Encoder Representations from Transformers,是一种基于Transformer架构的双向预训练语言模型)和先进的LLMs,如GPT-3.5,通过特定语言的指令和示例语料库进行微调,在调整正式程度的同时保持翻译准确性。
研究结果令人鼓舞。Senderowicz Guerra报告说:“在我们的研究中,28%到50%的段落被分类为正式,并随后由LLM转换,只有5%的段落需要语言学家进一步编辑,这表明了系统的有效性。”以往调整翻译正式程度需要人类专业知识,实验的成功率表明,我们在自动化这一任务方面取得了重要进展。
然而,挑战仍然存在。5%的段落主要由非指示性动词形式组成,其中的人称变位模糊,必须由人工审阅者进行编辑。这突显了任务的复杂性,指出了需要进一步改进的领域。
尽管面临这些挑战,工作流程的效率已得到显著提高。“总体而言,使用LLM预处理显著减少了人工工作量:我们的语言学家需要审阅的段落不到50%,由于所需更改极少,他们的每小时生产力提高了200%以上。”Senderowicz Guerra指出。
减少人工干预加快了翻译过程,使人类翻译者能够专注于语言调整的更复杂、更微妙的方面。此外,成本节约也很显著,翻译为意大利语、西班牙语、法语分别节省了68%、77%和74%。
用例和应用
研究确定了该技术的两个主要用例,每个用例都有其自身的挑战和重点:
后期编辑:在这种情况下,关键是避免幻觉,以确保内容已准备好或仅需最少编辑即可立即发布。挑战在于在自动化改变正式程度的同时保持翻译的准确性和可靠性。
机器翻译准备和清理:目标是确保原语内容和目标内容之间的一致性和准确性,为机器翻译系统创建干净、可靠的数据。
LLMs自动化调整正式程度,这减少了对人工翻译者手动调整翻译语气和正式程度的依赖,从而提高了效率并节省了成本。特别是对于处理大量多语言内容的企业而言,LLMs自动化的调整还使翻译工作流程更快且更具可扩展性。
Senderowicz Guerra总结道:“这项研究强调了在翻译过程中降低成本和提高质量的潜力,为行业的持续进步做出了贡献。”
展望未来:挑战与机遇
这项研究的影响不只包括提高效率和节省成本。目前的研究主要集中在罗曼语族。将这种方法扩展到具有独特正式结构的更广泛的语言对,这既是一个挑战,也是一个提高的机会。
LLMs在自动化调整正式程度方面的能力在营销、客户服务和外交沟通等领域尤为有价值,在这些领域,适当的正式程度可以显著影响信息的有效性。
在这一领域的进一步研究和开发提供了令人兴奋的机会。将LLMs扩展到其他语言和内容类型,如技术文档或法律文本,可能会为翻译自动化开辟新的路径。此外,将LLMs应用于其他语言挑战,如风格转换,可能会减少人类工作量,使公司能够更快、更灵活地调整其内容。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛
审校:章坚