技术科普 | 语言AI成为主流的五种方式
除了学术界、计算机实验室和本地化团队之外,语言人工智能正在进入普通人的日常生活——那些与语言行业没有明确联系的人。有五种主流方式,分别是以任何语言访问网站,播客、采访、视频博客等的转录,使用语音AI将编写的脚本转换为音频,为短视频配音,使用手持设备解释对话。
语言AI,定义于Slator Pro 消费者语言AI指南,是一个总称,涵盖任何人工智能支持的语音或文本转换或生成。这可能包括机器翻译 (MT)、自动字幕、AI配音、语音翻译和AI文本生成,仅举几例。
语言人工智能的演变特别引人注目的是,它现在的广泛使用经常出现在生产周期的两端。例如,内容创建者可以使用语言AI工具来使他们的内容更易于访问,但最终用户、观众或听众通常也会这样做。谈论公平的竞争环境。
被广泛接受的语言AI最直接的例子之一,是以“不熟悉”的语言(根据计算机或浏览器的设置)出现在网页上的小弹出窗口。
根据网站的不同,这些低风险的内容被认为是语言人工智能的主要目标,因为即使是粗略的翻译也意味着对以前无法触及的障碍的改进。
长期以来,在多个市场运营的主要品牌都提供了其网站的翻译和本地化版本选择,但人工智能驱动的开发是一个网络浏览器扩展或插件,可以检测用户可能想要翻译的内容。
这些工具通过MT模型运行Web复制,并在网页上的原始位置显示翻译后的输出。就质量和涵盖的语言广度而言,性能取决于产品,Google Translate 和Microsoft Translator 通常支持最多的语言。
AI支持的转录现在是人们最普遍的语言AI示例之一(如果不是的话)由人民)。
自动转录的多语言功能取决于所使用的工具或模型以及音频质量,但通常依赖于包括以下内容的工作流程:自动语音识别,语音转文本API和翻译。
有两个因素同时鼓励了人工智能转录的广泛采用,特别是对于充斥着人们信息源的大量播客、采访和视频博客:对可访问性的日益关注和媒体消费的转变。
底线:今天,许多观众/听众选择浏览成绩单(而不是观看视频)或更喜欢观看视频 字幕或字幕.一些平台已经抓住了这些趋势,并经常向观众展示视频,并将字幕或字幕作为默认设置显示出来。
相反——也许是违反直觉的——对音频内容的需求同时增加,这很容易反映在过去五年播客的指数级增长中。这也可以从许多在线文章中看出,这些文章为读者提供了聆听而不是阅读文本的机会。
但是一些内容创作者正在使用AI工具让自己定期跳过录音室,这要归功于文字转语音工具。最近一项重大进展是 语音克隆,从用户录制他们说话声音的相对简短的样本开始。然后,语音克隆工具可以生成合成声音,模仿原始说话者的性别、年龄、节奏、口音、情感和其他特征。
将MT加入其中意味着说话者现在可以看起来用他们实际上不会说的语言进行交流。当然,吸引人的是,多语言语音克隆将把创作者的内容带到更多的市场,从而带来更多的粉丝。
这确实是TikTok一代的时刻,为短视频配音是创作者可以在自己的家庭工作室中采用的技术知识和创造力的独特结合的缩影。
标准的AI配音工具由语音转文本组件、翻译工具和语音生成功能组成;有些包括一个口型同步组件,用于将嘴唇运动与新声音相匹配。在这方面,语音克隆的改进也推动了人工智能配音从幻想到非虚构。
YouTube是地球上最知名的视频平台之一,它设计了自己的无尽短视频滚动,可能是为了回应TikTok的巨大成功。现在,据报道,YouTube还在与数百名创作者一起测试多种语言的AI驱动的配音。
如果没有对巴别鱼圣杯的强制性引用,那么对人工智能驱动的任何讨论都是不完整的,巴别鱼经常被引用为对新翻译工具的赞美点。
虽然高昂的价格点可能会阻止许多潜在买家今天拥有一台,但每台独立设备都曾成为人们关注的焦点,包括Pocketalk和iFLYTEK。目前,解决方法是使用Microsoft、Windows或 苹果 在独立设备上。
用户已经被这些发明所震撼,例如OpenAI的 翻译工具,使演讲者(在演示中为意大利语和英语)能够在没有共同语言的情况下进行交流。质量在一定程度上取决于语言对以及其他因素,虽然没有一个是完美的,但它们似乎已经非常接近了。
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。