神经机器翻译(NMT)是自动翻译领域的最新技术,但它仍然有其局限性,尤其是当它涉及到更复杂的语言时。我们将看看亚洲语言面临的一些语言特有的问题。韩语带来了挑战,尤其是因为它有不同的礼貌和正式程度。而处理敬语的方法之一就是语境。语境会对翻译行业产生什么影响,以及如何将其引入机器翻译算法——我们将在本文中找到答案。此外,我们将讨论这些话题,并自己决定在NMT中引入语境意识是否有助于提高翻译质量,以及我们是否可以期待其他亚洲语言也有这种改善。
使事情复杂化的语言细节
对于某些语言,如韩语、日语和印地语,使用正确的敬语至关重要。在韩语中,敬语用于与长辈和地位较高的人交谈。当涉及到机器翻译时,这些敬语很难处理,尤其是在不同语言之间。韩语的敬语有三种类型——主语、宾语和收信人敬语。在英语中,情况并非如此。这使得从英语到韩语的翻译非常具有挑战性。
礼貌和正式程度
礼貌水平可以分为高、中性和低,同时正式程度可以分为高或低,这可能导致6种不同的表达方式,这取决于对话中人们之间的关系,如下图所示。
使用错误的风格可能会导致羞辱、尴尬,甚至冒犯观众。这意味着人们不能完全依赖NMT,尤其是在涉及到商业和其他正式对话时。这就是语境意识发挥作用的地方。
语境为何重要
为译者提供语境一直是确保高质量结果的最重要因素之一。这可以通过几种方式来实现——一种是提供尽可能多的关于给定主题的信息,确保短语和俚语得到解释,甚至替换可能被误解的单词。
另一个好方法是提供视觉语境,因为我们知道一张图片胜过千言万语。这可以是一个直接指向内容所在位置的截图,这可以使翻译的工作变得容易得多。
在这方面,语境意识是机器翻译领域的下一步,而且它已经显示出积极的成果。根据首尔国立大学于2021年所做的研究,“拥有语境意识的NMT模型不仅可以提高翻译质量,还可以提高敬语的准确性”。当然,这也可以用于其他在使用MT时有类似问题的语言。
在算法中引入语境
NMT的语境意识可以通过添加一个标记敬语的平行语料库来实现,该语料库可以表示给定对话中人与人之间的关系。通过添加儿子、兄弟、主管等关系信息——所有可以确定谁是长辈,或者处于优势地位的信息。即使它们不属于正在翻译的内容。它将提供急需的语境,这将提高质量,并标记适当的敬语水平。随着时间的推移和更多数据的收集,语境意识将成为机器翻译软件的重要组成部分。
它是如何工作的?
一般来说,NMT模型是在句子层面运作的;它接受源语言的输入句子,并返回目标语言的输出句子。另一方面,NMT中的语境编码器被设计成处理一个或多个语境句子作为输入,并提取语境表现形式。
让我们看看这在实践中是如何运行的:
这些例子摘自首尔国立大学的文章,题为韩语敬语表达的语境意识神经机器翻译。对话来自他们的数据集,数据集是从字幕中提取的。黄色单词是用礼貌和/或正式的敬语翻译的动词,而红色单词是用不礼貌和/或非正式的敬语翻译的。粗体关键词用于确定应使用哪种类型的敬语。带下划线的代词表示(a)中的两个话语是由同一个说话者讲述的,而(b)中的话语是正式的话语。
亚洲语言的语境意识机器翻译
总的来说,对于大多数亚洲语言来说,语境是机器翻译及其质量的最大问题之一。韩语就是一个很好的例子。向现代新算法的引入总是一个改进的机会。
机器翻译和亚洲语言的另一个问题一直是缺乏数据。我们已经讨论了韩语敬语,但这可以很容易地用于不同语言特定问题,并获得类似的成功。敬语的使用相当广泛,是日语、印地语和爪哇语以及其他语言的重要组成部分。这绝对是该领域的一个有希望的进步,我们期待着它的进一步发展。
总之,拥有语境意识的NMT模型不仅可以提高翻译质量,还可以提高敬语的准确性。虽然与敬语控制模型相比,它们的改进不太显著,但它们仍然可以利用语境信息来帮助正确翻译敬语。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:王云菲