这篇文章是关于Crowdin如何看待翻译的未来以及LLM在其中的作用。 我最近看到Slite的Arnaud Rinquin的一篇文章,题为“我们是如何跳过传统的翻译工具的“。这篇文章引起了我的注意,因为Crowdin就是一个翻译工具。现在,我们就用文章中的一个事实:已经证明LLM可以在实际的UI本地化项目中生成95%的可立即发布的翻译,而传统的NMT仅能达到30%。 我们在合成实验中也看到了类似的结果。我引用了Slite,让下面的内容更加可信。 一个本来不是为翻译行业设计的技术是如何取得如此巨大的效率提升的呢?一种方法是让人类在指示机器进行翻译时给出上下文。 谷歌翻译完美地掌握了语言。它在英语中知道的词汇远远超过了我(或任何人类),但它仍然难以将“Name”从英语翻译成波兰语。这是因为翻译取决于上下文。它可以是Nazwa(一个城市的名字),也可以是Imię(一个人的名字)你没有办法向谷歌翻译提供上下文,因此机器只能做出猜测。在有了猜测的情况下,你应该预期会出现错误。 特别是UI本地化项目充满了无法在没有上下文的情况下翻译的短文本。 你可能在社交媒体上看到了一个预测,即在5年内,每个人都将拥有个人AI助手。这个助手将对你了解很多,知道你是谁,以及你在做什么,因此在帮助你处理日常任务方面非常高效。 在Crowdin,我们相信每个多语言公司都会有多个人工智能助手,其中一个将是他们自己的人工智能翻译器。这是一个将为特定公司进行调优的机器,了解他们的偏好,以及他们期望针对每个目标受众进行哪种类型的翻译。 现在,有了这些信息,Crowdin的团队在想,今天的现代翻译工具应该是什么样子?如何让通用LLM对翻译任务更有用? 如果在一些本地化项目中,人工智能可以产生95%的可出版翻译,我们如何为许多Crowdin客户复制这一成功经验? 我们如何让企业客户开始培训他们定制的AI翻译器,以便随着时间的推移不断改进? 这篇文章的第二部分更多的是关于如何在Crowdin中使用AI的指南。我不得不承认,下面描述的技术很,有做出一定妥协好抓紧发出来。但这项技术已被证明可以按照描述的方式运行。这个指南的目的是展示如何改变买方翻译工作流程,并介绍将在未来本地化项目中使用的概念。 正如Slite的实验和我们的许多内部实验所表明的那样,人类向机器提供的上下文越多,翻译质量就越好。 Crowdin为我们的客户提供了许多提供上下文的方式。 -项目级别 -文件级别 -键/字符串级别 -翻译员会话级别 项目级上下文就是通常所说的“提示”。本地化经理从预配置的提示开始,可以修改和扩展提示,提供有关此项目的所有相关信息。在执行提示之前,Crowdin将填充必要的背景,例如翻译记忆库匹配、词汇表术语,甚至是语言学家认可的其他语言的翻译等。 最好的提示应该包括有关您的领域、公司、产品、消费者等的信息,信息越多越好。 然后是文件级别的上下文。在翻译Zendesk文章或包含应用程序发布说明的Word文档等内容时,这是最重要的。如果您的Crowdin项目中有多个文件,那么必须告诉机器有关这些文件内容以及期望的翻译类型的信息。 键/字符串级别上下文对于UI本地化项目至关重要。UI副本中的文本很短,如果没有足够的上下文(文本、截图或上下文翻译工具),即使是人也很难翻译它们。即使在内容丰富的项目(如网站翻译项目)中,也最好在字符串级别提供上下文。网站主页上出现在图像之间的文本需要机器能够以最佳方式进行翻译的一些额外上下文。 会话级别是供语言学家使用的,而不是项目经理。在与Crowdin编辑器一起工作的语言学家可以与所选的LLM模型进行交流,并在需要时寻求帮助。提供的上下文越多,语言学家获得的帮助就越多。 还有一件事我们建议您做。Crowdin AI助手请求翻译时,可以选择“发送整个文件”。即使这只是一个大文件中的一个片段的翻译,这个选项可能会影响您的预算,但很多时候,整个文件包含大量上下文,LLM可以生成与该文件中已有的翻译一致的翻译。 还有一点,这不是一个功能,而是一项建议。作为一名Crowdin项目经理,如果你会说两种语言,我们建议你多次尝试提示和上下文,直到你看到翻译“足够好”,至少对于一个大项目中的几个文件来说是这样。 有了这些,您就可以预翻译其他目标语言,并为您的目标地区邀请校对人员。以机器期望的方式提供上下文是实际工作流程的变化。以前,在从代理机构购买翻译时,另一端的人会自然地获得关于您的项目的大量上下文。如果您与游戏本地化公司交流,您就不用明确说出“我正在做一款关于青少年的僵尸游戏的本地化项目”。 UI本地化项目在工作流程上发生了更多变化。现在,内容设计师或开发人员必须为他们创建的每个按钮的标题提供上下文。我的意思是,即使在人类进行翻译时,应该也已经完成了这项工作,但在AI时代,开发人员将不得不花更多的时间来描述每个关键的用途。 如果您成功使用上述工具并提供足够的上下文,我不能立即保证95%的好翻译,但这个百分比肯定会远高于NMT预期的30%。 即使您的本地化项目在提供足够的上下文后实现了95%的有效翻译。剩下的5%呢? 最近几个月,LLM供应商已经开始提供微调功能。还记得ChatGPT会要求您点“赞”或“踩”吗?这正是精细调整的内容。 在Crowdin上的翻译案例中,LLM的批准翻译被视为点赞,如果人工进行了编辑,就是点踩,此外,经过编辑的翻译将被发送回LLM模型。 Crowdin人工智能助手允许您通过暴露现有的TMs和术语表来精细调整标准的LLM模型。这种精细调整是向机器展示您期望的翻译和您使用的术语的绝佳方式。 最重要的是,精细调整可以逐步进行。每当您的TM或术语表中有大量新条目时,您可以对以前进行过精细调整的LLM模型进行进一步的精细调整,我们预计不久的将来将可以实时完成(无需每周手动进行精细调整)。 我们认为这是为每家公司创建定制AI翻译器的一种方式。人类做的编辑越多,LLM在未来的翻译就越好。 当我们向早期采用者,特别是企业客户,介绍上述解决方案时,首先出现的关注是安全性。 简短回答:Crowdin允许您使用来自LLM提供商的自己的API密钥。大多数LLM提供商(如OpenAI或Microsoft Azure)都为企业客户提供隐私框架。这个协议将规定客户的数据在暴露给LLM时如何处理。 我们故意决定要求我们的企业客户使用自己的API密钥。除了解决隐私问题外,Crowdin鼓励我们的客户在使用Crowdin时充分拥有经过训练的LLM模型。这样,我们不会为客户创建供应商锁定。当然,价格方面,Crowdin不会向在Crowdin使用LLM的客户收取额外费用。 对于小型本地化项目和使用我们免费订阅计划的用户,以及只想在Crowdin上尝试AI的公司,我们提供了5美元的信用额,可以充值余额以享受经过精细调整的LLM模型,这些模型通常比标准模型更好。 这篇文章比我想象的还要乐观。多年来,我学到的是现实往往会打破我们成功的实验室实验。事实上,目前的现实情况显示,大多数LLM供应商的API对于大型翻译项目来说还不够可靠。Crowdin集成是一种新的、频繁更新的技术,甚至没有很好的文档记录。整个工作流完全不同,在客户端重建流程非常繁琐。 但我坚信所有粗糙的边缘都会以惊人的速度被打磨掉。我鼓励我们所有的客户尽快开始试验和寻找利用新技术的方法。 以上所有技术在Crowdin上都可以立即获得。Crowdin提供了一个24 × 7的技术支持团队,他们很乐意为您的人工智能采用提供咨询。 简而言之: (机器翻译,轻度译后编辑,仅供参考。)
上下文依旧至关重要
公司人工智能翻译
数据安全与LLM模型
最后的思考和其他关切
编辑:刘煜珍