一开始只是办公室范围内的一个笑话,但现在,它已经变成了一项任务,“在Elon去火星之前,让每个人都能用自己的语言进行理解和交流。”
罗马语言服务供应商 Translated 的联合创始人及 CEO Trombetti说:”我们认为 Elon 关注的问题并非是最关键的。”
他认为,让人类生活进入到星际时代是最大的进步。
而我们认为,在地球上实现相互理解才是更为重要的事。
Trombetti 指出,语言一直是推动人类进化的核心力量。它不仅让我们能够互相理解,还让我们能够协同工作。解决了语言障碍,即让不同语言的人们能够顺畅交流,将会开辟出一系列全新的可能性。
他说,相互理解和合作是解决其他挑战的必要工具,比如马斯克致力于解决的挑战。
Trombetti 表示:“使每个人都能够理解别人并被别人理解,这才是我们应该解决的问题。”
“这一点比登陆火星还要重要,因为理解才是最关键的工具。一旦我们解决了理解的难题,就能促进全球层面的合作,届时我们甚至能成为跨行星的物种。Elon 似乎忘记了这一点。”
随着 Musk 的注意力转向其他事务,尤其是去年他斥资 440 亿美元收购 Twitter 后,Trombetti 和他的团队似乎开始领跑这一领域。
在 Musk 忙于调整社交媒体平台的内容审查政策、验证系统和人员配置时,Translated 团队则在密切关注我们在机器翻译技术达到与人类翻译相同水平方面的进展及其对人类翻译者工作的潜在影响。
Trombetti 在 2022 年 9 月举行的美洲机器翻译协会大会上分享的数据显示,我们正在逐步缩小机器翻译与人类翻译之间的差距。
三个月后,Translated 发布了一份深度报告进一步解释了会议上提出的观点。
根据过去十年左右的数据,这份名为《我们接近人工智能奇点的速度》-的报告预测,在未来十年左右,机器翻译的质量将与最顶尖的人工翻译相媲美,至少对于英语、西班牙语和中文这类一级语言是这样。
Translated 团队还向我们保证,即便在这一差距被缩小之后,人类语言专家在行业中的作用依然不可或缺,他们甚至声称,到那时人类翻译者的收入将会超过现在,而不是减少。
然而,尽管有这样的保证,行业内仍有许多人对即将实现与机器翻译同等水平的人类翻译持怀疑态度,更不用说这将为人类翻译带来好处了。
如果机器翻译(MT)真的能达到与人类同等水平的质量——而且是熟练的水平——那么语言服务行业可能会迎来一个全新的时代。
但是那个时代会是什么样子呢?
机器翻译达到人类水平的可能性以及技术奇点是长期以来深深吸引着语言学家和计算机科学家的讨论热点。《MultiLingual》杂志通过与一些行业专家的交流,试图深入了解我们离达成机器翻译与人类平等的目标究竟有多远,以及这将对整个行业产生何种影响。
讨论诸如技术奇点和人类平等的主题往往颇具挑战,部分原因在于这些概念的定义可能因人而异。
“奇点”一词尤其是一个充满争议的术语,常常被用来描述那些在科幻反乌托邦作品中,由暴政机器统治的世界情景。
事实上,一个广为人知的定义由著名计算机科学家 Ray Kurzweil 提出,他将“奇点”视为人工智能发展突然失控,以一种根本性且不可预测的方式彻底改变人类与技术关系的临界点。
Translated 的报告采用了一种更实际的方法来界定奇点,将其聚焦在机器翻译系统能够一贯产出无需任何编辑的完美翻译的时刻。
与其他关于奇点的定义不同,Trombetti 把它定义为“语言奇点”。
Translated 对达到这一阶段后的未来有着自己的设想,这与其他人讨论技术奇点时描绘的反乌托邦场景大相径庭。
在这种情况下,Translated 的团队使用这一术语,指的是一种更贴近于其他人可能仅仅称之为人类平等的概念。
然而,人类平等的定义,就像“奇点”的定义一样,有点模糊——用最一般的术语来说,它指的是人工智能模仿人类翻译的系统。
人工智能
从历史上看,机器翻译中人类平等的两个主要概念支柱是流畅性和充分性。
流利强调语法正确性——要使翻译达到流利,必须使用正确的拼写和句子结构。
另一方面,充分性更多的是确保目标文本传达与源文本相同的意思,没有遗漏或误译任何东西。
在2018年的一项研究中,微软的研究团队声称他们已经在中英机器翻译上实现了人类水平的平等,他们给出了这样的定义:
“如果对机器翻译系统的一组候选翻译进行的人类质量评分与相应的人类翻译的评分之间没有统计上的显著差异,那么可以认为机器达到了人类水平平等。”
人类水平平等并不意味着翻译完全无误,而是指其质量无法与人类翻译者所做的翻译区分开来。
当然,人类翻译者也可能犯错,因此微软的研究者们认为,我们也应当对机器翻译系统给予同样的容错空间。
这个术语也出现在人工智能的其他领域,如语音识别和生成人工智能。
在 Translated 发表其关于我们接近机器翻译技术奇点的速度报告的同一时期,OpenAI 也推出了ChatGPT,一个基于 GPT-3.5 大型语言模型的聊天机器人。
ChatGPT 用户可以让这个机器人创作各种文本内容,它生成的文本至少在表面上看起来和人类写的文本没有区别(虽然这样的文本可能显示出了一种相当有限且单一的写作风格,但毕竟仍归类于人类创作)。
ChatGPT
ChatGPT等高质量工具的出现,奥尔加·贝雷戈瓦亚说我们可能需要重新思考我们讨论和定义人类平等的方式——尽管她说我们非常接近实现它,但我们可能需要从其他方面来看待它。
虽然今天最先进的机器翻译产生了高度充分和流畅的文本,但仍有一些领域可能不完全适合充分和流畅的问题,例如,更结构化的内容或翻译的副本。
“我们作为整个行业需要面对的一个问题是,当我们说到人类水平平等时,我们到底指的是什么?”
Smartling的人工智能和MT副总裁Beregovaya说。
“我们真的需要重新考虑人类水平平等的定义。”
不过,不管我们怎么定义,行业内的创新者们长久以来一直在探讨这个问题:我们是否以及何时可以实现与人类相同的水平。
早期用机器翻译人类语言的尝试有点不稳定,但研究人员仍然乐观地认为,有一天机器能够像任何人一样完成翻译任务。
例如,著名的乔治敦实验背后的研究人员——乔治敦大学和IBM的语言学家在20世纪50年代初合作开发了人类历史上第一个公开展示的机器翻译程序——在1954年声称,他们最多需要五年时间将机器翻译从罗马化的俄语完善为英语。
当然,我们现在明白,这曾是冷战时期的一个重大误判。
时间快进到今天,距离那些研究人员展示他们的机器翻译系统已经近70年。
随着生成机器翻译输出的底层技术从基于规则到基于统计,再到基于神经网络的演进,我们已经取得了巨大的进展。
神经机器翻译是当今最先进的机器翻译方法,可以产生高度可读和流畅的输出,但德国奥里奇ENERCON翻译管理负责人克里斯托弗·库尔茨博士说,这种高水平的可读性经常被误认为是语言的完美。
“仅仅因为它们是可读的,并不意味着它们是正确的,”他说。
2018年,当微软的研究人员声称在机器翻译中实现了人类对等的英汉翻译时,许多人很快认为这是对机器翻译能力的过于乐观的解释。
例如,苏黎世大学研究人员进行的一项独立评估发现,虽然人类评分者对孤立句子的人工和机器翻译的判断非常相似,但在评估整个文档的翻译时,人工翻译表现更好。
在他们的实验中,研究人员发现,人类评估者在查看整个文档而不是文档中的孤立句子时,对机器翻译输出的偏好从50%下降到37%。
那些研究人员的发现与库尔茨博士的立场这些研究人员的发现与库尔茨博士的立场高度吻合,他认为机器翻译(MT)通常在超出语言文字本身的领域——比如,遵循客户的风格指南——方面的表现不尽人意,而这通常是人类翻译者所擅长的。
他仍然对人类平等的说法持怀疑态度,指出我们还没有到MT系统可以审查风格指南并产生符合所有这些风格要求的翻译的地步。
虽然库尔茨博士坚持认为机器翻译是人类翻译的有用工具,但他说我们离和人工翻译水平平等还有很长的路要走。
为了准确衡量我们向着人类水平平等和技术奇点的进展,Translated 分析了高技能专业翻译者在编辑机器翻译输出时所花费的时间。
这个指标——每个单词的编辑时间(TTE)——与其他测量MT输出质量的自动化方法(如BLEU或COMET)略有不同。
与这些指标不同,特隆贝蒂说,这是量化人类翻译在阅读过程中所付出的认知努力的最可靠方法。
一个完美的句子的平均每词编辑时间(TTE)应为一秒,这包括了阅读、处理确认单词适合文本以及继续到下一个单词所需的时间。
如果——或何时——机器翻译程序的平均每词 TTE 达到一秒,Translated 认为我们将实现奇点。
Translated 的报告基于其计算机辅助翻译工具 Matecat 编辑的两亿句话,由 126,000 名表现最出色的翻译者完成的 TTE 数据。
公司表示,2014 年每个单词的平均 TTE 超过三秒,但这个数字从那时起已经稳步下降,到了 2022 年约为两秒。
将这些数据绘制成图形时,显示出一条相对线性的趋势——将这个趋势线延伸到未来,预计平均每词 TTE 将在2028年左右的某个时候超过一秒钟的阈值。
公司内容总监 Silvio Gulizia 表示,这并不是一个精确的预测——技术奇点可能在 2027 年到来,或者可能要等到 2029 年。
这与许多其他预测相一致,即我们将在这十年的末尾达到技术奇点,但 Translated 声称是首个以可量化数据进行此类预测的。
Trombetti 指出,在语言领域,进步是以波浪形式出现的,每一波往往只涉及特定的语言。
尽管像英语和西班牙语这样的主流语言可能在 2028 年实现奇点,但对于尼泊尔语或斯瓦希里语这样的资源匮乏语言来说,奇点的到来还远未在望。
事实上,一些业内人士认为我们已经实现了人类水平的平等——例如,机器翻译实施及培训公司Custom.MT的联合创始人Konstantin DranchMT实施和培训公司Custom.MT的联合创始人说,人类水平平等已经在一些主要语言中实现了。
“人类水平平等已经实现,只是分布并不均匀。”他说。
ChatGPT能写出比许多人写得更好的文章,MT能比大部分语言学习者翻译罗曼语翻译得更好。
但同时,如果让他翻译土耳其语,它就没那么令人印象深刻了。
人类水平平等在不同语言之间存在分化。
在这个议题上持相反观点的是库尔茨博士,他认为我们离达到机器翻译的人类水平平等还有很长的路要走。
虽然机器翻译取得了令人印象深刻的结果,并且是人类翻译人员提高工作效率的有用工具,但即使在它确实产生高质量、类似人类的结果的情况下,相同的模型也可能不会始终产生相同质量的输出。
Beregovaya 指出,机器翻译程序难以处理同音异义词,并且可能产生无关的词汇或短语。
此外,尽管使用 TTE 和 BLEU 这类指标可以大致评估机器翻译模型的表现,库尔茨博士还认为我们应该用评估人类翻译者的相同标准来衡量机器翻译质量。
“当我们谈论人类平等时,我们不应该局限于这些专门为机器翻译设计的标准或方法,”他说。
“我们应该应用与人工翻译文本相同的标准。”
他表示,除非机器翻译能够对源文进行深思熟虑并融入客户的特殊需求,否则很难声称我们已经达到了人类水平的平等。
对于那些对机器翻译达到人类水平持怀疑态度的人类翻译者来说,Translated 承诺,随着机器翻译质量接近人类水平,人类语言专家的收入将有所增加,这可能会为他们带来一定的安慰。
这一逻辑是:随着翻译者在编辑机器翻译输出上花费的时间减少,他们将能够翻译更多的文字,以几乎相同的努力产生更多的成果。
Trombetti 表示,随着 TTE 的降低,“他们一小时的劳动不仅仅能转换成 500 个单词——而是能转换成数十亿个单词。”
尽管如此,Trombetti并不回避这样一个事实,即人类翻译的角色将随着这些发展而改变。
他还强调,随着翻译者们将不得不担当起文化中介的角色,确保机器翻译输出文化上适宜,他们的文化知识和意识将变得前所未有的重要。
他说:“根据奇点的定义,机器将能够产生超越任何单一人类所能的更优质的语言。”
“但是情感呢?需要调解的文化差异呢?”
Jane Nemcova,曾任 Lionbridge AI 董事总经理及蒙特雷国际研究学院的人工智能兼职教授,也认为人类语言学家面前正展开新的、更为多样的机遇。
她指出,传统上,语言学领域的学生往往觉得自己只能从事有限的几种职业,如翻译、口译或是学术和教育等。
随着机器翻译技术的进步,她预见到一个未来,其中翻译人员将更多地注重文化调解而不仅仅是语言本身。
她提到,人工智能已知会复制人类的不良偏见——例如,谷歌近年来必须处理 Google 翻译中的性别偏见和性别歧视问题——人类需要负责审查机器翻译的成果,确保文本中不存在任何偏见或攻击性的言辞。。
即便在我们有生之年实现了人类与机器的平等,Beregovaya 认为,在受到严格监管和高风险的行业中,如药品行业,人们对机器翻译的依赖可能会更加谨慎。
“那些需要承担较高责任的专业翻译任务,仍然需要人类进行审查和确认。”
同样,Dranch 也相信翻译人员将为机器翻译提供必要的质量控制和问责机制,无论是通过审查每句话,还是评估其整体的适用性。
底线呢?
人类语言专家的作用并未消失,而是与机器翻译技术一同进步、演化。
“掌握多种语言、理解语言细微差别以及大脑如何通过语言反映思维的能力,是任何人都可能具备的最珍贵技能之一,”Nemcova 表达了她的观点。
机器翻译,轻度译后编辑,仅供参考。
编辑:严覃瑶