除了学术界、计算机实验室和本地化团队之外,语言人工智能正在进入普通人的日常生活——那些与语言行业没有明确联系的人。
语言人工智能,在Slator Pro的消费者语言人工智能指南中定义,是一个涵盖任何人工智能支持的转换或生成语音或文本的总称。这可以包括机器翻译(MT)、自动字幕、人工智能配音、语音翻译和人工智能文本生成,仅举几例。
关于语言人工智能的进化,特别引人注目的是,它现在的广泛使用经常出现在生产周期的两端。例如,内容创作者可以使用语言人工智能工具使其内容更易于访问,但最终用户、观众或听众通常也会这样做。这是公平的竞争环境!
访问任何语言的网站
被广泛接受的语言人工智能的一个最直接的例子是在网页上出现一个“不熟悉”语言的小弹出窗口(根据计算机或浏览器的设置)。
根据网站的不同,这种低风险的内容被认为是语言人工智能的主要目标,因为即使是粗略的翻译也意味着对以前无法进入的障碍的改进。
在多个市场运营的主要品牌长期以来一直提供其网站的翻译和本地化版本,但人工智能驱动的开发是一个web浏览器扩展或插件,可以检测用户可能想要翻译的内容。
这些工具通过MT模型运行网页副本,并在网页上的原始位置呈现翻译后的输出。就质量和语言覆盖的广度而言,性能取决于产品,谷歌翻译和微软翻译通常支持最多的语言。
转录播客,采访,视频日志等等
人工智能支持的转录现在是人类(如果不是人类)语言人工智能最普遍的例子之一。
自动转录的多语言功能取决于所使用的工具或模型以及音频质量,但通常依赖于包括自动语音识别、语音到文本api和翻译在内的工作流。
有两个因素同时鼓励了人工智能转录的广泛采用,特别是对于大量的播客、访谈和视频博客:对可访问性的日益关注和媒体消费的转变。
底线:今天许多观众/听众选择略读文本(而不是观看视频),或者更喜欢观看带有字幕或字幕的视频。一些平台已经抓住了这些趋势,经常在向观众展示视频时默认显示字幕或字幕。
使用语音AI将书面脚本转换为音频
相反地——也许与直觉相反——对音频内容的需求同时增加,这很容易反映在过去五年播客的指数级增长上。这也可以从许多在线文章中看到,这些文章为读者提供了一个听而不是读的机会。
但由于文本转语音工具的出现,一些内容创作者正在使用人工智能工具,让自己定期跳过录音棚。最近的一项重大进展是语音克隆,它可以让用户录制一段相对简短的语音样本。然后,语音克隆工具可以产生一个合成的声音,模仿原始说话者的性别、年龄、节奏、口音、情绪和其他特征。
将MT加入其中意味着说话者现在可以用他们实际上不会说的语言进行交流。当然,多语言语音克隆的吸引力在于,它可以将创作者的内容带到更多的市场,从而获得更多的粉丝。
为短视频配音
这确实是TikTok一代的时刻,短视频的配音体现了技术知识和创造力的独特结合,创作者可以在自己的家庭工作室中使用。
标准的人工智能配音工具包括语音到文本组件、翻译工具和语音生成功能;其中一些包括唇形同步组件,用于将唇形运动与新声音相匹配。在这方面,语音克隆技术的进步也推动了人工智能配音从幻想转向非虚构。
YouTube是这个星球上最知名的视频平台之一,它设计了自己无尽的短视频,可能是为了回应TikTok的巨大成功。现在,据报道,YouTube也在与数百名创作者一起测试几种语言的人工智能配音。
用手持设备口译对话
关于人工智能的任何讨论,如果不提到Babelfish的圣杯,那就不完整了,Babelfish经常被用来称赞新的翻译工具。
虽然高昂的价格可能会让许多潜在买家望而却步,但每一款独立设备都曾受到关注,包括pocket talk和科大讯飞(iFLYTEK)。目前的解决方法是在独立设备上使用微软、Windows或苹果的应用程序。
用户已经被这些发明所震撼,比如OpenAI翻译工具,它可以让说话者(在演示中说意大利语和英语)在没有共同语言的情况下进行交流。质量部分取决于语言对以及其他因素,虽然没有一个是完美的,但它们似乎已经非常接近了。
获取Slator的专业指南:面向消费者的语言人工智能,以获得关于语言人工智能技术及其采用的简明易懂的指南,其中包括10个关键用例。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:陈驭格