关于机器翻译(MT),尤其是在翻译复杂或微妙的语言表达时。然而,由于技术进步,机器翻译工具变得更加准确,在某些情况下,甚至可以与人工翻译相媲美。
谷歌翻译一直是机器翻译技术的先驱,但它正面临着来自DeepL和亚马逊翻译等竞争对手越来越多的竞争。让我们来探索谷歌翻译的准确性,它相对于竞争对手的表现,以及有效使用它的一些最佳实践。
概述
机器翻译技术的演进
自古以来——巴别塔的倒塌,对于那些相信它的人来说——人们就需要用他们没有掌握的语言来传达思想。这被称为“翻译”,代表将文本从一种语言翻译成另一种语言的行为。
为此,人们通常会依赖其他人,他们不仅掌握了“源”(原始)语言和“目标”(翻译)语言,而且还可以被信任来翻译信息的最初意图。
这一过程可能成本高昂,而且往往不切实际。寻找可靠的翻译可能具有挑战性,成本飙升,最重要的是,生产率可能很低——但在没有替代解决方案的情况下,这一切都可以工作几个世纪。20世纪计算机工具的出现改变了一切。
从统计模型到翻译技术中的深度学习
计算机给翻译带来了巨大的进步,因为它们能够存储已经翻译的句子,并将它们与要翻译的新文本相匹配。随后开发了不同的计算机辅助翻译工具,大大提高了生产率。尽管如此,即使大量使用CAT工具,匹配的配对也必须在上下文中进行审查,不匹配的配对仍然需要翻译。
机器翻译(MT),它在人工智能,进一步提升了翻译能力。
也称为自动翻译,由于有了互联网,机器翻译很快变得对任何人都可用,许多技术供应商开始免费提供机器翻译服务。它似乎解决了之前提出的所有问题-免费即时翻译。
然而,仍然有一些问题围绕着机器翻译软件的使用。如何最好地实现机器翻译翻译工作流程?你能在多大程度上信任机器产生的翻译?MT在多大程度上恰当地传达了内容的原意?换句话说,准确吗?
谷歌翻译的准确性是如何随着时间的推移而提高的
谷歌翻译一直是机器翻译技术发展的关键角色自2006年推出以来,精确度稳步提高。在早期,它遵循基于规则的统计机器翻译方法,使用一组现有的翻译(语料库)来翻译句子中的特定单词。统计机器翻译的质量是相当基本的,开发人员必须手动定义和编程什么有效地构成了一大组规则。由于翻译质量低,开发成本高,谷歌在2016年推出了一种新的机器翻译模式:神经机器翻译(NMT)。
神经机器翻译的兴起
神经机器翻译不是从一开始就运行一套预定义的规则,并受人脑工作方式的启发,谷歌神经机器翻译(GNMT)使用神经网络处理完整的句子作为输入(源文本)和输出(翻译文本)的例子来预测翻译结果。NMT理解上下文,可以快速定制,并检测长距离依赖,以改善意义的解释。它生成类似人类输出的翻译的能力使NMT成为今天的行业标准——像德国的DeepL这样的公司也在市场上竞争。
谷歌翻译的Transformer模型
2018年,谷歌翻译发布了其Transformer模型它引入了注意力机制,彻底改变了机器翻译的准确性。通过使用自我注意层来更好地捕捉上下文,该模型能够比以往任何时候都更准确地理解和生成翻译。除了计算性能的提高,Transformer模型还通过提供神经网络如何“看到”单词和短语的见解,使谷歌翻译能够更好地将句子中的单词和短语置于上下文中。它适用于多种语言对,其准确性也相应不同。
谷歌翻译准确性概述
A 2011年研究性研究我发现谷歌翻译对许多欧洲语言都很有效,但对亚洲的一些语言就不那么准确了。谷歌翻译中英语翻译准确度最高的10种语言是(从最好到最差):
- 德语
- 南非荷兰语
- 葡萄牙语
- 西班牙语
- 丹麦语
- 希腊语
- 波兰语
- 匈牙利语
- 芬兰语
- 中文
2019年,a重新评价使用与原始研究相同的输入显示,谷歌翻译的准确性提高了34%。
最近的研究由加州大学洛杉矶分校医学中心在2021年进行的研究显示,谷歌翻译在82.5%的翻译中保持了一般含义。然而,准确率为55%~94%。以下是结果的简要概述:
谷歌翻译对不同目标语言英语源内容的准确性水平 | |
西班牙语 | 94%准确率 |
韩语 | 82.5%准确率 |
中文 | 81.7%准确率 |
波斯语 | 67.5%准确率 |
亚美尼亚语 | 55%准确率 |
总的来说,谷歌翻译——以及大多数机器翻译(MT)系统——在具有丰富训练数据和高市场需求的语言方面表现出色。这通常优先考虑将英语作为源语言或目标语言的语言对,通常偏爱欧洲语言。
另一方面,亚洲语言往往会带来挑战,因为可用的训练数据有限,而且独特的语言复杂性不像欧洲语言那样典型。也就是说,MT引擎的性能不断经历再培训和改进,导致准确性和流畅性水平的变化。
你如何评价谷歌翻译的表现?
有各种各样的评估指标来评估谷歌翻译等机器翻译引擎的质量,其中BLEU(双语评估替补)和TER(翻译错误率)使用最广泛。然而,这些并不是评估谷歌翻译表现的唯一指标。例如,在短语中,我们有自己的专有评估Google Translate和其他机器翻译系统在准确性和质量方面的表现如何——我们每季度进行一次:在我们的季刊上机器翻译报告,我们汇集了短语TMS中实际工作流程中使用的所有主要机器翻译引擎的最新性能数据,短语TMS是我们短语本地化套件中的企业就绪翻译管理系统。我们从一开始就考虑两个关键标准:语言对(源语言与目标语言)和内容类型(领域)。根据最新的机器翻译报告,短语TMS中机器翻译项目中使用的前3种语言对是:
- 英语——西班牙语
- 英语——法语
- 英语——德语
就每种语言对的内容类型而言,Google Translate在以下领域取得了最高的性能分数:
- 医学英语——德语(91.62)
- 工业英语——西班牙语(86.01)
- 日常消遣英语——德语(84.34)
该结果基于6个月内收集的匿名机器翻译后期编辑数据。为了收集精确的机器翻译质量结果,我们过滤了翻译片段,以尽可能反映所需的后期编辑工作:要么使用机器翻译并进行后期编辑,要么语言学家不顾机器翻译的可用性从头开始翻译——这表明机器翻译质量对于后期编辑来说太低了。
该结果基于6个月内收集的匿名机器翻译后期编辑数据。为了收集精确的机器翻译质量结果,我们过滤了翻译片段,以尽可能反映所需的后期编辑工作:要么使用机器翻译并进行后期编辑,要么语言学家不顾机器翻译的可用性从头开始翻译——这表明机器翻译质量对于后期编辑来说太低了。
你能相信谷歌翻译吗?
由于语言和翻译都是动态的范畴,本质上反映了过程,而不是静态的现象,准确性也应该被视为一个相对的概念。翻译的准确性将取决于作者的初衷和信息的目的地。例如,对电子邮件语法、风格和注册准确性的期望将与对小说准确性的期望大相径庭。
一个经常听到的观点是,谷歌翻译的免费机器翻译服务对大多数用户来说足够准确,因为他们需要翻译简单的信息——最重要的是观众能够抓住它的意义,而不是完整的“原生”信息。因为期望值很低,所以可以认为它足够准确。
根据经验,Google Translate的免费MT工具在以下情况下的准确性不太一致:
- 用作翻译单个单词的字典:Google Translate很难产生准确的结果,即如作者所愿,因为一个单词可能有多种含义;英语和其他广泛使用的语言都是如此
- 翻译在目标语言中没有直接对应词的熟悉表达
- 非语言表达是信息的一个重要部分,例如在讽刺的时候
- 语法规则在源语中使用不当或在目的语中使用不同,如英语中的虚拟语气
出于商业目的,当大量内容需要跨域翻译时,谷歌提供其云翻译连接系统。公司可以自己设置,也可以从第一天开始依靠翻译管理系统(TMS)来全面管理。云翻译为领域和上下文特定的术语提供定制功能,以及训练定制翻译模型的可能性。
谷歌的云翻译产品发表官方声明除了提供翻译服务之外,它不会将提交翻译的任何内容用于任何目的。然而,尚不清楚该公司如何使用提交给免费版谷歌翻译的信息,或者这些数据是否以任何方式影响商业决策。
谷歌翻译有什么主要竞争对手吗?
虽然Google Translate可能是讨论机器翻译时会出现的第一个名字,但也有几个竞争对手机器翻译软件市场上的供应商——每个供应商都提供特定的MT方法。
以下是Google Translate的一些主要竞争对手,在寻找最佳机器翻译引擎:
亚马逊翻译
亚马逊翻译是亚马逊子公司亚马逊网络服务的一部分,为个人和企业提供按需云计算平台和API。它也基于NMT技术。
亚马逊翻译支持75种语言之间的翻译。
DeepL
DeepL是一家总部位于德国的在线MT服务,于2017年推出。它使用NMT技术的专有算法,可以处理DOCX、PPTX和PDF文件,同时保留脚注、格式和嵌入图像。
DeepL支持26种语言,形成650种目标到源代码的组合。
Systran翻译
Systran是一家翻译技术公司,由加州理工学院的一名研究人员于1968年创立。它是最早开始开发MT软件的公司之一。它最初的目标是改进俄语到英语的翻译。
从基于规则的MT技术开始,它开发了混合RbMT/SMT技术,并从那时起转向NMT。
使用Systran Translate,您可以翻译成50种语言。
Microsoft翻译器
微软翻译器是微软提供的多语言MT云服务。作为微软认知服务的一部分,它与多种消费者、开发者和企业产品集成在一起。
微软翻译器支持100多种语言。
腾讯
腾讯机器翻译是中国科技巨头腾讯的主要机器翻译产品。该解决方案结合了NMT和SMT模型。
腾讯机器翻译支持超过160种不同的语言对。
谷歌翻译会完美吗?
翻译不仅仅是把单词从一种语言转换成另一种语言。如果是这样的话,字典将是这个行业唯一必要的工具,我们都看到了非常糟糕(有时非常搞笑)的结果以那种方式工作。这是因为信息不仅仅是由文字组成的,它还包含上下文、意图、非语言方面等。
尽管如此,谷歌翻译多年来一直在快速发展,但它仍然无法做人类翻译所能做的事情:
- 问问题
- 理解上下文
- 理解讽刺
- 创造性地翻译
- 作出深思熟虑的选择
- 做研究
- 观察一致性
- 保证完整性
- 故意遗漏或包含信息
- 添加注释/注释
没有人知道技术是否以及何时能达到人类语义敏锐度的水平,但这正是许多人的目标。例如,量子计算旨在增加可以处理的操作和数据的数量,因此有一天它可能能够在没有人类交互的情况下学习,并更好地理解语言的创造。
如何使用谷歌翻译:最佳实践
谷歌翻译已经发展成为一个强大的生产力工具,可以节省你的时间,免去你寻找一个好翻译的麻烦。一般来说,你可以使用谷歌翻译的文本不需要完美的风格和一致性,即任何不会成就或破坏你的品牌的东西:
- 低可见性或低流量内容,如内部文档、网站页脚、用于情感分析的社交媒体帖子等。
- 重复的技术内容,只需要可操作,如指导手册,供最终用户访问关键信息以解决问题
- 用户生成的内容,如产品评论,消费者通常不期望高质量
- 易腐内容,如聊天或电子邮件支持消息、客户查询等。
- 周转时间短的大量内容,例如需要快速上线的数百个产品描述
- 经常修改的内容,如功能和信息更新
然而,如果你决定完全依赖谷歌翻译,你可能会冒着翻译缺乏重要信息、意义或语法的风险。为了避免这些陷阱,检查和调整您的MT输出是非常关键的。这个过程被称为机器翻译后期编辑。
根据您想要达到的精确度,您可以应用轻度或完全后期编辑。这两种方法都将为您提供使用MT输出的好处,同时确保您的消息从一开始就达到预期目标。
作为一般准则,以下情况需要机器翻译后编辑:
- 产品标题:信息量大,简洁,往往包含专有名词和多义词,词序通常相对自由,可能会造成歧义。
- 不同语法的语言对之间的翻译,如日语和西班牙语,因为将单词和短语重新排序为格式良好的句子对机器翻译引擎来说更具挑战性。
- 产品描述:它们需要精心制作,清楚地陈述产品的特点或好处,没有含糊不清的余地。
- 需要尽可能准确的中等可见性内容:知识库、常见问题解答、警报等。
- 后端SEO元信息,如图像替代文本和标题:虽然它们的可见性很低,但人们需要确保目标语言关键字存在。
总而言之,就像所有其他免费的MT服务一样,当你想快速翻译相对简单的文本时,Google Translate的免费机器翻译工具非常方便。然而,对于正确传达原意的准确翻译,从长远来看,您会希望将后期编辑视为使用机器翻译的最有效方式。
(机器翻译,轻度译后编辑,仅供参考。);编辑:李溢泉