除了学术界、计算机实验室和本地化团队,语言人工智能正在进入普通人的日常生活–那些与语言行业没有明显联系的人。
语言人工智能在 Slator Pro 消费者语言人工智能指南》中的定义。人工智能是一个总括术语,涵盖任何人工智能支持的语音或文本转换或生成。 其中包括 机器翻译 (例如,机器翻译(MT)、自动字幕、人工智能配音、语音翻译和人工智能文本生成。
语言人工智能的发展尤为引人注目的是,其目前的广泛应用往往体现在制作周期的两端。 例如,内容创作者可以使用语言人工智能工具来使他们的内容更易于理解,而最终用户、观众或听众也经常在自己的终端上做同样的事情。 这就是公平竞争!
访问任何语言的网站
被广泛接受的语言人工智能最直接的例子之一,就是在 “陌生 “语言(根据计算机或浏览器的设置)的网页上出现的弹出式小窗口。
根据网站的不同,这种低风险的内容被认为是语言人工智能的主要目标,因为即使是粗略的翻译也意味着比以前无法访问的路障有所改进。
长期以来,在多个市场运营的主要品牌都提供了其网站的翻译和本地化版本,但人工智能驱动的发展是一种网络浏览器扩展或插件,可以检测用户可能希望翻译的内容。
这些工具通过 MT 模型运行网页副本,并在网页的原始位置显示翻译输出。 在质量和语言覆盖范围方面,性能取决于产品,谷歌翻译和微软翻译通常支持最多的语言。
播客、访谈、Vlog 等内容的转录
现在,人工智能转录已成为面向大众(如果不是由大众)的语言人工智能最普遍的实例之一。
自动转录的多语言能力取决于所使用的工具或模型以及音频质量,但通常依赖于包括以下内容的工作流程 自动语音识别, 语音到文本 API和翻译。
有两个因素同时促进了人工智能转录的广泛应用,尤其是在播客、访谈和视频博客充斥着人们的信息流的情况下:一是人们对可访问性的日益关注,二是媒体消费的转变。
底线 如今,许多观众/听众选择略读文字稿(而不是观看视频),或者更喜欢观看带字幕的视频 字幕的视频. 一些平台已经抓住了这些趋势,并经常在向观众展示视频时默认设置显示字幕。
利用语音人工智能将书面脚本转化为音频
与此相反–也许是反直觉的–对音频内容的需求同时也在增加,这很容易从过去五年播客的指数级增长中反映出来。 这一点也可以从许多在线文章中看出,这些文章为读者提供了听而不是读文字的机会。
不过,一些内容创作者正在使用人工智能工具,让自己可以定期跳过录音室,这要归功于 文本到语音 工具。 最近的一项重大进展是 语音克隆语音克隆是指用户先录制一段相对简短的说话声音样本。 然后,语音克隆工具可以生成一个合成语音,模仿原说话者的性别、年龄、语调、口音、情感和其他特征。
将 MT 加入其中意味着说话者现在可以用他们实际上不会说的语言进行交流。 多语种克隆语音的吸引力当然在于能将创作者的内容推向更多市场,从而吸引更多粉丝。
为短视频配音
这是 TikTok 时代的真正时刻,为短视频配音体现了技术诀窍与创造力的独特结合,创作者可以在自己的家庭工作室中使用。
标准的人工智能配音工具包括语音转文本组件、翻译工具和语音生成功能;有些工具还包括唇部同步组件,用于将唇部动作与新声音相匹配。 在这方面,语音克隆技术的改进也将人工智能配音从幻想推向了非虚构领域。
YouTube是全球最知名的视频平台之一,它设计了自己的无尽短视频卷轴,这可能是对TikTok大获成功的回应。 据报道,YouTube 现在也在与数百名创作者测试人工智能驱动的多种语言配音。
用手持设备翻译对话
关于人工智能的任何讨论都离不开 “圣杯 “Babelfish,它经常被用作新翻译小工具的赞美之词。
虽然高昂的价格可能会让许多潜在买家望而却步,但包括 Pocketalk 和 iFLYTEK 在内的每款独立设备都有成为焦点的时候。 目前的变通方法是使用微软、Windows 或 苹果 的独立设备。
用户已经被这些发明所震撼,例如 OpenAI 在演示中,该翻译工具可以让意大利语和英语使用者在没有共同语言的情况下进行交流。 翻译质量部分取决于语言对以及其他因素,虽然没有一个翻译工具是完美的,但似乎已经非常接近了。
总结:获取 Slator 的 专业指南》: 面向消费者的语言人工智能 以简明易读的方式介绍语言人工智能技术及其应用,其中包括 10 个关键使用案例。
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘煜珍