生成式人工智能翻译:谨慎行事

分享

其他推荐

Language I/O的创始人Heather Shoemaker在这篇深入的分析中讨论了实现无缝多语言交流的复杂性和解决方案。

人工智能在自然语言处理(NLP)方面取得了显著的进步。在这个技术进化的时代,机器翻译的边界正在被推到前所未有的水平,而生成式人工智能的兴起只是增加了这种推动。语言翻译技术行业正在蓬勃发展,而且没有放缓的迹象。全球语言翻译软件市场价值为2022年108.1亿美元预计到2030年将飙升至359.3亿美元。进入基于NLP的语言翻译平台,如ChatGPT、Google Translate和Microsoft Translator,所有大语言模型(LLMs)和基于大量公开数据训练的计算机程序。这些复杂的程序可以“理解”人类的语言模式和语言背后的意义或意图。虽然一些人称赞这些尖端工具是解决所有商业问题的灵丹妙药,但生成式人工智能解决方案仍未完全满足企业的所有语言翻译需求。人们还质疑企业是否可以信任生成式人工智能来进行准确的语言翻译,以及这项技术是否安全。在这些问题之后,最好的行动方针是谨慎行事。

生成式AI可靠吗?

所以问题来了。Gen AI擅长快速生成内容(以及编码和翻译)。根据特定数据对其进行训练会产生最准确、最有用的回答。不幸的是,gen AI通常缺乏产生最佳结果的上下文,因为它没有接受过行业或业务特定数据的训练。就像一个普通的大语言模型,比如ChatGPT,无法准确回答关于一家公司从未训练过的专有内容的问题。一个普通的LLM或未经训练的人工智能翻译平台,如谷歌,也无法准确翻译从未接受过训练的领域的内容。在这两种情况下,人工智能都缺乏所需的上下文。虽然企业从投资实时翻译技术而不是雇佣额外的多语种员工中受益,但该工具/技术需要适当的培训。当合适的技术到位,帮助当前团队成员毫不费力地与客户沟通,而不管他们使用什么语言时,客户满意度就会提高。自2017年以来,可用的独立机器翻译服务数量增加了6倍。尽管出现了显著的上升,但生成式人工智能翻译模型仍在开发中。他们以不可靠、胡说或基于一般数据的回答质量差而闻名,尤其是当被要求处理复杂或微妙的文本时。生成式人工智能在构造良好的输入下工作得最好,但在商业环境中,不同背景和对语言技术熟悉(或不熟悉)的人正在使用聊天机器人实时请求信息或寻求帮助,沟通可能会更好。聊天机器人还为内部团队提供了另一种快速访问数据的方式。实时交流的一些特点可能会导致翻译出错,包括:

  • 拼写错误的单词:基于文本的客户沟通经常充斥着错别字,人工智能试图翻译这些拼写错误可能会导致错译。这些翻译错让客户服务代表和客户感到困惑沮丧,从而损害了品牌的声誉。
  • 特定领域表述和模棱两可的用语:口语表达、行业和品牌特定术语中的单词通常有多种含义,生成式人工智能可能会将这些单词翻译成它们的字面意思,而不是破译公理或利基词汇。
  • 多语种输入:如果一个说西班牙语的客户将一个英语单词放入他们的生成式人工智能输入中,该技术可能缺乏解析它是另一种语言的复杂能力,从而“混淆”,导致它误译或完全跳过翻译该单词。

有很多途径导致低于标准的生成性人工智能翻译输出。如果没有将技术融入情境并培训员工使用它并向它提供正确的输入,组织就不能相信生成式人工智能翻译会达到在客户服务或商业环境中取得成功所需的水平。

生成人工智能伦理

生成式人工智能热潮见证了该领域的指数级增长,但与人工智能相关的政策和保护仍需跟上该技术。例如,当采用人工智能的86%的组织说,有关于其道德使用的指导方针是至关重要的,只有6%的人实施了负责任使用的政策。这一政策差距为使用生成式人工智能工具时留下了大量潜在陷阱,包括:

  • 有偏见的输出和错误的信息。生成式人工智能工具是根据来自公共互联网的信息进行训练的,互联网的许多数据都是主观的。生成式人工智能无法区分偏见和客观的观察,冒着输出错误或有偏见的信息的风险。ChatGPT的细则指出:“ChatGPT可能会产生关于人、地点或事实的不准确信息。”未能实施适当的人工智能监督会使组织面临潜在的不准确和有攻击性的的输出,带来灾难性的后果。
  • 安全和隐私问题。通过LLMs传递包括个人信息在内的敏感数据会引发多种安全问题。数据被存储了吗?如果有,如何办?有什么安全措施?例如,API外部的数据训练工具可能会泄漏信息作为对另一个客户端的响应。出于培训以外的原因存储的数据也容易受到网络攻击或数据泄露。根据Salesforce的数据,61%的受访员工在工作中使用或计划使用生成式人工智能;然而,几乎60%的人不知道如何在使用该技术时确保安全性,这进一步说明了使用指南的必要性。政策透明和用户的知情同意权对于确保道德数据使用至关重要。尽管全国性的数据法规可能即将出台,但每个组织都必须通过实施强有力的保护来优先考虑数据隐私。
  • 无法访问的信息。生成式人工智能来自公共互联网,但它无法触及的数据呢?它无法访问受管控的内容,这需要身份验证(填写表格并输入密码)。这种受管控的内容通常包括专有的公司信息,因此客户询问生成式人工智能公司特定问题不太可能得到最准确的答案,因为该工具缺乏对公司资源的访问,而这些资源将提供他们所寻求的信息。

随着生成式人工智能使用的持续增长,这些LLM的未来迭代可能会解决至少其中一些问题。尽管如此,在此之前,组织必须实施负责任的使用策略。

LLMs的语言局限性

大多数著名的大语言模型都接受过英文或中文数据训练。随着技术继续影响工作、教育、艺术、商业等领域的重构,全球讲7000种其他语言的60多亿人面临被排除在外的风险。例如,Meta警告说,其7月份发布的更新LLM将最适合英语查询,因为其大部分训练数据都是用英语编写的,并表示“该模型可能不适合在其他语言中使用”对于希望促进与全球客户群的多语言沟通的组织来说,这种语言差距进一步说明了生成式人工智能工具的缺点。为了实现最佳的实时通信,最聪明的组织投资于情境化技术。对于生成式人工智能平台,这涉及某种形式的领域适应,如即时工程、RAG(检索增强)或微调。然而,为了确保生成式人工智能平台能够准确地回答多种语言的问题,并在特定领域的语言之间进行翻译,这种领域适应不仅要发生在基础语言中,还要发生在公司支持的所有语言中。Gartner发现,公司发现只用一种语言训练人工智能的过程比他们预期的更困难。此外,根据人工解决方案,当面临跨公司进行所有支持的语言的重复性的训练任务时,他们正在放弃了。公司迫切需要一种代表他们自动进行多语言领域适应的解决方案,例如由LanguageI/O提供的解决方案。然而,这种努力是值得的,因为实现这种技术可以帮助正确翻译以前有问题的词句,如拼写错误、行话或俚语。请优先考虑上下文,以避免不连贯的对话,并最终让客户不满意。尽管基于LLM的技术很受欢迎,但它们还不能产生最准确的商业翻译。利用上下文技术,如Language I/O提供的技术,以及生成式人工智能工具,可以帮助实现一流的翻译。投资这种类型的技术可以最大限度地增加现有员工人数,缩短等待时间,使其7天一天24小时都可以使用,并支持更多的世界语言,从而节省资金和资源,同时提高客户满意度、员工包容性和业务的总体成功。

机器翻译,轻度译后编辑,仅供参考。

编辑:张梓琦

原文链接

Was it helpful ?