提起印度,人们通常会联想到该国的语言多样性。事实上,除梵语外,现代印度语言共有 21 种。其中包括古吉拉特语、印地语、克什米尔语、马拉雅拉姆语、尼泊尔语、旁遮普语、泰米尔语、泰卢固语、乌尔都语等。当然,这 21 种语言中有一种是鲜为人知的卡纳达语。
使用卡纳达语的印度当地人大约有 4700 万人。在印度西南部的卡纳塔克邦,当地人主要使用四种达罗毗荼语,卡纳达语是其中第二古老的语言。卡纳达语还拥有广泛的文学传统,目前发现的最古老的卡纳达语碑文可追溯到公元 450 年。作为卡纳塔克邦的官方语言,它以前也被称为卡纳雷塞语。
关于英语和卡纳达语之间的互译,该领域的研究很少。然而,五位研究人员在 2021 年聚集在一起,共同探索与使用深度神经网络(DNN)有关的机器翻译准确性。他们的论文题为“使用深度神经网络进行从卡纳达语到英语的机器翻译”。结果令人印象深刻。下面让我们来详细了解一下。
机器翻译背景下的卡纳达语是什么样的?
卡纳达语的悠久历史可以追溯到几个世纪以前。然而,它被认为“在计算语言学方面”资源贫乏。因此,机器翻译成为一项艰巨的任务,因为卡纳达语文献中的句法和语义语英语存在差异。就统计机器翻译 (SMT) 而言,有关卡纳达语的许多研究和调查都集中在英语和南达罗毗荼语(卡纳达语/马拉雅拉姆语)上,这是一种较为传统的机器翻译方法。
然而,就机器翻译而言,卡纳达语到英语的翻译仍是一个尚未开发的领域。该项目一般涉及,使用词汇分析和短语映射,翻译卡纳达语音译语料库中的简单句子。但是,最近的研究运用了神经机器翻译(NMT),利用编码器-解码器机制(Encoder-Decoder mechanism)将卡纳达语翻译成英语。
什么是深度神经网络(DNN)?
深度神经网络(DNN)被认为是“连接输入和输出的隐藏网络(层)的分等级组织”。一个神经翻译网络一般至少有两层,这使其具有一定的复杂性。
在翻译方面,深度神经网络被用于人工智能、数学建模、统计学、深度学习、机器学习,甚至语言学中。
因此,在本研究中,深度神经网络要寻求正确的数学运算,以便将输入转化为输出。在这种情况下,以实现卡纳达语到英语的翻译,输入的是卡纳达语的部分内容。
研究结果
通过在英语到卡纳达语的机器翻译中应用神经翻译网络,本研究取得了令人印象深刻的成果,对于研究仍然有限的该领域来说是先进的。
在这项研究中取得的一些成果包括:
-
根据输入句子的长度,该模型的翻译时间在两秒到五秒之间;
-
获得的验证损失为 0.849
-
最初,第一个历元的验证准确率约为 74.84%。不过,随着历时次数的增加,验证准确率也提高到了 86.32%。
-
双语评估研究(BLEU)分数是用来评估预测句子到目标句子的指标,通常用 1 表示完全匹配,用 0 表示完全不匹配。这方面的成果也令人印象深刻。
英语到卡纳达语机器翻译的未来应用范围:能否应用于其他语言?
上述研究结果对于语言学家、翻译、本地化专家、学者、企业以及其他许多在卡纳达语生态系统中工作的人来说意义重大。必须注意的是,卡纳达语的字母与英语的字母、句子结构、词汇差别极大。并且,其他各种各样语言上的细微差别在本质上意味着,在英语和卡纳达语互译过程中,人类和机器都将面临巨大挑战。不过,准确率得分高达 86.32%,这一结果非常出色,证明研究人员取得了前人难以企及的成就。
这一突破将来也有可能应用于英语到卡纳达语的机器翻译。尽管这一领域还需要开展更多的研究,但这是一个很好的迹象,表明两种根源完全不同的语言的复杂性可以经受住数学建模的考验,并产生高度精确的最终结果。虽然它并不完美,但这确实意味着需要翻译人员的人工润色来给翻译收尾。但是,只需几秒钟就能获得高度准确的输出结果,所节省的时间、精力和资源确实令人印象深刻。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:王云菲