翻译行业的未来之旅
从七个方面展望翻译行业的未来,自动化翻译不再仅仅是互联网上的免费赠品,而是已经进入翻译行业的实体经济之中,改变着一切。
期待已久的技术革命来了。自动翻译不再只是互联网上的免费赠品。它现在正进入翻译行业的“实体”经济,改变着一切。
翻译业简史
四十年来,在商业和技术环境变化的推动下,翻译行业经历了常规的适应转变。
无论迄今为止的旅程多么令人印象深刻,没有什么比得上即将到来的:奇点(Singularity)。在这个新阶段,技术基本上完全接管了一切。在这个过程中不再需要人工翻译。谷歌和微软在声称他们的MT引擎翻译得和人类专业翻译一样好时,暗示了这种未来状态。然而,这在学术界和专业界都引发了关于这种所谓的人类平等到底意味着什么的激烈辩论。
2.零成本翻译的兴起
全球翻译行业正处于一种“混合经济”状态:一方面是传统的垂直级联供应链,另一方面是新的平面的免费机器模型。只要被喂给适当质量和数量的数据,机器自身的优化速度就会大大提高,这使得翻译成为一种边际成本接近于零的业务类型(依杰里米·里夫金)。这意味着一旦有了合适的基础设施,新翻译的输出几乎不需要任何成本,容量也是无限的。
只要翻译行业还被锁定在基于劳动力的垂直成本模式中,认为我们可以在现有的经济模式中通过增加更多的能力和技能来产生全球商业影响,这一想法有多大依据?
对于翻译行业的运营商来说,要跟随趋势并过渡到新的免费机器模式,他们需要彻底变革其商业盈利模式:准备好打破现有结构,采用新的共享和协作行为,减少对人工任务和工作活动的需求,并进步技术。在新的经济模式下,语言质量、翻译记忆库和单词率等概念将失去意义。相反,我们将讨论全球业务影响、数据和模型以及基于价值的定价。
3.在被反噬之前主动终结现有商业模式
2019年,仅谷歌就翻译了300万亿个单词,而专业翻译行业估计翻译了2000亿个单词。加上微软必应翻译、Yandex MT、阿里巴巴、腾讯、亚马逊和苹果等其他大公司,MT引擎的总产量可能已经比我们星球上所有专业翻译的总生产能力大一万倍。 直到两三年前,在新的神经机器翻译成功故事开始出现后,人类专业翻译和机器翻译还存在于两个平行的世界。即使在谷歌和微软内部,产品本地化部门也没有使用他们公司自己的MT引擎。但现在这种情况已经改变了。几乎所有的翻译工具和工作流程都集成了机器翻译。
因此,翻译行业运营商面临的问题是,这两个流程是否会继续共存,或者MT是否会彻底洗去旧业务。LSP感受到的越来越大的压力已经促使他们提供各种数据或转换服务,或者开始构建自己的MT系统和服务。Gartner在他们最近的研究报告中,预计到2025年,企业将会看到75%的翻译工作从创建译文转移到审查和编辑机器翻译输出。
对于语言服务提供商来说,忽略人工智能和机器翻译是很不明智的。为了发展业务,他们需要走出本地化的利基市场,利用数据和技术来扩大规模,扩展到新的服务领域。
4.购买最好的MT引擎
这个问题被问了很多次:哪个MT引擎最适合语言A哪个最适合领域B?由于MT开发人员使用相同的框架或模型,如Marian、BERT或OpenNMT,这些框架或模型在GitHub上的开源许可下共享,所有这些问题的答案都是开箱即用的“最好的”MT引擎并不存在。MT不是静态的:模型在不断改进,机器的输出依赖于用于训练和定制模型的数据。这是一个不断调整和衡量结果的过程。
对于LSP来说,更重要的是有一种简单的方法来用他们自己的高质量语言数据定制MT引擎。翻译行业中的一些颠覆性创新者已经实施了实时或动态自适应机器翻译流程,这表明“预测翻译”是多么容易,这意味着引擎几乎可以立即从人类的编辑中学习。这种实时、自适应的MT仅在封闭的软件即服务产品中可用,这是可以理解的,因为优化学习过程的速度和成功需要即时的数据反馈循环。
需要更多灵活性和对技术控制的语言公司应该构建和定制他们自己的端到端解决方案。他们的主要挑战是为数据准备、数据训练和数据质量评估建立一个生生不息的流水线。他们围绕语言的工作流程就变成了数据驱动的解决方案。
5.没有数据,就没有未来
在过去的三十年中,翻译行业积累了大量源语言和目标语言的文本,这些文本存储在称为翻译记忆库的数据库中。然而,并非所有这些数据都适合作为训练数据。随着时间的推移,翻译记忆库通常没有得到很好的维护,它们可能过于具体和重复,或者包含可能会混淆MT引擎的名称和属性。
为了优化机器翻译输出的质量,语言数据需要尽可能高的质量。数据清洗和语料库准备应该包括重复数据删除、字符化、匿名化、对齐检查、命名实体标记等步骤。为了确保用于定制MT引擎的语言数据符合主题,可以使用更高级的技术来选择和聚类数据以匹配定制领域。即使你可能决定外包大部分与数据相关的业务,你的企业也需要新的技能、人才和新的组织结构,才能在如今的人工智能翻译领域取得成功。

6.谁拥有我的语言数据?
尽管他们可能相信未来在于控制数据,但许多机构的所有者以及翻译服务购买者仍然犹豫是否前进,因为他们怀疑自己对数据的合法权利。整个翻译行业都有一种强烈的感觉,即翻译是受版权保护的,永远不能用来训练系统。如果数据所有权的不确定性是减缓创新的一个因素,那么是时候弄清楚这个问题了。
在谁拥有我的语言数据白皮书(Who Owns My Language Data White Paper)、Baker McKenzie和TAUS解决了有关语言数据集、独立句段、GDPR和国际裁决等隐私和版权的重要问题。白皮书是全球翻译行业的蓝图。需要强调的重要一点是,版权更多地适用于完整的作品或作品的一部分,而不是单个句段。由于MT开发人员通常使用由随机收集的句段组成的数据集来训练他们的引擎,因此版权冲突的可能性极小。
语言数据的版权是复杂的,涉及多个利益相关者和许多例外。客户希望供应商使用可用的最佳工具和资源,今天这意味着使用MT和数据来定制引擎。据我们所知,还没有关于使用翻译记忆库训练MT引擎的诉讼先例,被处罚的风险也可以忽略不计。但是如果有疑问,你可以随时咨询你的利益相关者关于数据的使用。
7.打破数据垄断
如果没有数据,翻译就没有前途,那么打破对语言数据的垄断符合世界上所有语言服务提供商、其客户和翻译人员的利益。目前,少数大型科技公司和几十家大型语言服务提供商已经控制了新型人工智能驱动的翻译经济中最宝贵的资源。一个更加循环、共享和合作的经济模式将更适合我们的现代工作方式。
一种解决方案是将人工智能驱动的翻译解决方案中捆绑的贡献分开,并认识到所有不同贡献者的价值:
- 管理能够支持不断增长的人工智能系统的强大、可扩展的基础设施是一项只能由最大的公司来管理的任务。
- 为特定领域和语言定制模型是一项专门的服务,最好留给在这些领域拥有专业知识并能够通过其贡献增加价值的服务公司。
- 既然最优质的训练数据对每个人都至关重要,为什么不让生成这些数据的翻译人员和语言审查人员承担全部责任,并在每次他们的数据用于训练引擎时从他们的数据中赚钱呢?
创造性破坏的过程现在正如火如荼地进行着,可能会导致我们整个生态系统的重新设计。基于这种新分配方式的第一个市场现在已经出现:SYSTRAN推出了一个允许服务提供商训练和交易翻译模型的市场,而TAUS推出了一个数据市场这使得翻译行业的利益相关者能够将他们的语言数据货币化。当我们感受到由彻底的数字化、人力资源再赋能和指数级增长的数据智能驱动的行业重组的冲击波时,这些最初的探索应该会在整个行业引发健康的辩论。
(机器翻译,轻度译后编辑,仅供参考)
编辑:胡跃