随着 2023 年人工智能突破年的到来,语言服务行业正以谨慎乐观和”最好做好准备”的态度展望未来。在 NMT 出现后的五年左右时间里,人工智能语言技术为一切事物注入新的元素。 在 Slator 10 月苏黎世 SlatorCon 上,Florian Faes称之为“最重要的一年”,将业内领军人物重新聚集起来,进行了关于技术的面对面讨论,讨论并非充满恐惧,而是充满了前行的渴望,力求以尽可能稳健的方式前进。 Mayfair Equity Partners 董事总经理 Markus Zejermann 和 Carlyle 董事总经理 Fernando Chueca 不约而同地认为,语言行业有实力也有条件成为控制大型语言模型(LLM)相关技术和服务的专家。 这些是 Slator.com 2023 年最受欢迎的新闻。 这件事是2023年最受欢迎的新闻,在 9 月份引发了病毒式的分享和讨论。它涉及到美国国务院发布的一项 “拟发出整体购买协议”,以直接聘用约1,000名翻译和口译员提供语言服务。 该”意向”只是一份信息通知,说明可能与语言学家个人直接签订合同,以”提供口译、笔译和相关服务,支持美国政府最高级别的外交和外事活动”。这篇文章之所以受欢迎,可能与报酬有关,根据通告,只要满足一长串要求,单项任务的报酬可高达15 万美元。 Bard在2023年5月只是一个婴儿级别的大型语言模型,至少在它成为一个公开的聊天机器人时是这样。在 Slator,我们必须测试其固有的翻译能力。但它只是在学习阶段,它的母公司Google对其回应的不准确或不适当性进行了大量道歉。 Bard最初以美式英语、日语和韩语三语为主,尽管它声称(或是幻觉?)能够在133种语言之间进行翻译。Bard还说它能给电影加字幕。但当要求在除了这三种母语之外的任何语言中进行翻译时,它会说“我是一个在目前仅能回应部分语言的大型语言模型,所以我不能帮助您进行翻译。” 今年 3 月,研究人员公布了对大规模多语言翻译模型和 LLM(包括 ChatGPT)的详细研究结果。研究范围很广,包括非英语语言对在内的 100 多个翻译方向。 据研究人员称,当目标语言为低资源语言时,幻觉出现的频率更高,在某些语言对中超过了 10%。他们的结论是:”在翻译低资源语言或从低资源语言翻译时,模型往往较少依赖源语境”。 Meta 于 7 月发布了Llama 2 LLM,距离 Llama 1 发布仅过去了五个月左右。作为开放且免费供研究和商业使用的工具,LLM的第二个版本训练数据增加了40%。 然而,Meta的研究人员承认,该模型不是翻译的理想选择,解释称“大多数数据是英语的,这意味着Llama 2在英语用例中表现最佳”,并补充说“一个以英语为主的训练语料库意味着该模型可能不适用于其他语言。” OpenAI 的语音转文本模型 Whisper 可通过 API 使用,提供近 100 种语言的转录服务。然而,slator在 3 月份的一篇文章中发现,这种可用性可能仅限于少数拥有足够计算能力的用户,因为它需要大量的算力。 对于那些有能力提供这种计算能力的人来说,文章中讨论的六个用例是转录服务、语言学习工具、播客和音频内容索引、客户服务、市场研究和语音搜索。将 Whisper 的应用程序接口与 ChatGPT 和其他模式的应用程序接口相结合,用户还可以创建其他应用程序,包括 “视频到问答 “和 “视频到博文”。 五月份的一篇论文分析了 Pathways 语言模型 (PaLM),以了解 LLM 如何进行翻译。作者发现,55% 的双语实例实际上不是翻译,而是代码转换、引用母语中的命名实体和不相关的内容。40%的双语实例可视为伪翻译,包括总结和转述。 研究人员还尝试用提示语来激发 PaLM 的翻译能力,并确定大多数 LLM MT 研究都是用英文源语言和目标语言名称进行提示,后面加冒号(如 “French:”),这也是数据中最常用的提示语。 自 2009 年起,微软语言门户网站(Microsoft Language Portal)开始向公众开放,这是一个多语言的计算机相关术语在线词典,也是本地化风格指南和用户界面字符串翻译的汇编。该公司于 5 月份宣布关闭该门户网站。 该门户网站深受译员欢迎,其中一位译员当时在社交媒体上感慨道:”我认为停用这样一个术语门户网站是不对的,因为有很多像我们这样的用户和译员在使用这个工具”。该门户网站确实在 6 月关闭,但几周后又重新开放。 MrBeast(Jimmy Donaldson 在 YouTube 的网名)于今年 2 月宣布成立 Creator Global,这是一家为内容创作者提供配音服务的公司。这位社交媒体影响者从2021年底开始在自己的内容中测试了YouTube的多音轨音频,涵盖了十多种语言,从中萌生了提供任何语言的快速配音的想法。 YouTube 的多轨音频可将所有语言集中在一个视频中,然后,用户可以选择不同的语言。根据YouTube的说法,超过15%的测试者观看了视频中的“非主要语言”。 OpenAI 于今年 3 月推出了 GPT-4,是其语言模型中最先进的版本。司表示,该模型“比其前身更可靠、更具创造力,能够处理更加微妙的指令”。GPT-4 还能处理图像和文本输入。 该大型语言模型在不同的基准测试中进行了测试,包括考试模拟(如律师考试和SAT)。GPT-4在机器翻译性能方面也优于先前的模型版本:在26种语言中,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言,GPT-4在24种语言中优于GPT-3.5和其他大型语言模型。 世界知识产权组织(WIPO)2023年一轮PCT研究生奖学金计划于1月开始接受申请。研究金计划一般为期至少三个月,在瑞士日内瓦WIPO总部进行。获奖者每月将获得5,000瑞士法郎(5,410美元)的生活津贴。 经过初步筛选,入围候选人必须参加术语、翻译或能力测试,具体取决于他们所选择的方向。 (机器翻译,轻度译后编辑,仅供参考。)
1.美国国务院招聘 1,000 名笔译员和口译员
2.对谷歌巴德的机器翻译能力的测试
3.大型语言模型在“野外”机器翻译时为何产生幻觉
4.Meta 警告其最新大型语言模型”可能不适合”非英语使用
5.新 Whisper API 的六个实用案例
6.谷歌探索大型语言模型的实际翻译效果
7.微软关闭受人喜爱的语言门户网站
8.为什么 MrBeast 要成立配音公司
9.GPT-4承诺推出新用途
10.WIPO为翻译研究毕业生提供每月5,000美元的日内瓦奖学金
编辑:刘煜珍