用机器翻译把英语准确地翻译成汉语听起来很神奇,是吧?如果这项技术得到自由应用,它将影响广泛的行业,包括电子商务、汽车、游戏、工程、医疗等等。
这项工作的主要问题是语法上的差异,更确切地说,与英语等基于单词的语言相比,汉语缺乏明确的单词界限。你可能已经看到,当你想把英文翻译成中文(或者甚至想把中文翻译成英文)时,谷歌和百度等翻译公司这些年来已经大大提高了准确性。在本文中,我们将深入探讨英汉翻译问题以及机器翻译的进展。
是什么使英语到汉语的翻译变得困难?
汉语是世界上最古老的语言之一,可以追溯到公元前1250年!因此,你不能指望它是简单的。事实上,如果你把它和简单化的英语相比,它会显得超凡脱俗。英汉译者必须应对许多挑战,以确保传达正确的意思,以下是其中的一些挑战:
汉语语法
造成汉语语法复杂的因素有几个,其中之一就是单数和复数没有明显的区别。此外,动词缺乏表达时间参照的变化模式。你可能会想象,当你想把英语翻译成汉语时,这已经构成了一个严重的挑战,并且需要强有力的上下文来进行适当的翻译。
书写方向
你认为汉语的书写方向是什么?从左到右?也许从右到左?从上到下呢?答案很简单……都对!它可以朝任何方向发展。虽然最近几年发生了现代化,而且主要的方式是我们习惯的方式,但如果你看到中文文本写得不同,不要感到惊讶。这是完全正常的,最好记住这一点。
文化差异
东西方最大的冲突之一是文化差异,它也影响着翻译。一个特定国家的世界观在他们的语言中根深蒂固,你可以通过他们的表达清楚地看到这一点。在汉语中,四个字的习语被称为成语,专业的汉语翻译人员会很清楚这些。
下面是一个例子:“囫囵吞枣”的大致意思是“吞下信息而不吸收信息”,但最好的机器翻译会如何表达呢?如果你想到了“把枣整个吞下去(swallow the dates whole)”,那么你是对的!
困难清单还在继续,但让我们看看机器翻译是如何改进以便处理它们的。
用深度学习将英语翻译成汉语
近年来,机器学习背后的主要推动力是深度学习。但什么是深度学习呢?机器学习的这个子集试图模仿人脑,即使它无法与之匹配(暂时无法?)。深度学习解锁了一项技术,允许算法一次性使用大量数据。这些深度神经网络在速度识别和视觉目标识别等重大问题上取得了优异的性能。因此,自然语言处理的进步和突破推动了机器翻译主要任务的完成——快速准确地翻译文本和语音。
与流行的统计机器翻译等以前的范式相比,神经机器翻译在语言知识少得多的情况下表现出更好的性能,是目前研究人员的主要关注点。注意机制是神经机器翻译模型的最新组成部分之一。有趣的是,这个机制是基于人类行为的。在阅读和翻译文本时,我们经常会反复阅读文本,以便更好地理解句子的意思。这种模式的一个例子是谷歌的“Transformer”,它完全基于注意力机制,且表现出色。它的作用是——它为算法提供了额外的上下文,正如我们在上一篇文章中已经了解到的,即使你想将英语翻译成中文,在神经机器翻译中引入上下文也展现了强大的性能和准确性。
提高机器翻译准确性的方法
机器翻译模型需要数据才能获得可靠的性能。所使用的方法可能会有所不同,这取决于语言对,或者在这种情况下,也取决于试图将英语翻译成汉语以及两种语言之间的主要差异。
汉语分词
在英语中,分词很简单,每个单词之间都有空格。然而,这是一些语言中完全缺失的东西,包括中文。在这些情况下,会发生一个称为文本标记化的过程,换句话说,文本被分成有意义的块或标记。这些标记使英语翻译成汉语变得更容易,避免了歧义、笨拙甚至错误的短语。
插入训练数据
区分不同译者的就是——他们所经历的数据。这进一步教会了他们翻译所讨论语言对的复杂性,或者在英汉翻译情况下的复杂性。然而,该领域的发展方向是,研究即使在数据量很少的情况下也能表现出良好准确性和性能的模型和算法。这正是神经网络的优势所在,尤其是注意力机制的优势所在。神经网络在很少的数据被“投喂”给他们的情况下展示了出色的结果,这意味着这些模型可以用少得多的资源立即带来令人满意的结果。
没有语言障碍的未来
机器翻译领域的研究向我们展示了人类离全球化有多近,这是一个语言不再是障碍的世界。如果你现在想把英语翻译成汉语,你将面临一系列的挑战。技术肯定可以帮助我们弥合差距,每年都有令人难以置信的进步。在本文中,我们只讨论了正在采取的一些步骤。然而,这肯定只是朝着正确方向前进的垫脚石。在那之前,请确保在寻求适当本地化您的业务时使用专业服务。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:王云菲