亚马逊的转录工具Amazon Transcribe现在通过一个新的基于基础模型的系统支持100多种语言,用于自动语音识别(ASR)。
在2023年11月26日的一篇博客中,亚马逊宣布其团队使用“最佳的自监督算法”训练了语音基础模型,这是一种可以为特定任务进行训练的人工智能系统,如大型语言模型。
该系统使用了来自100多种语言的数百万小时未标记音频数据进行训练,并使用“智能数据采样”来平衡跨语言的训练数据比例;其目的是在历史上资源匮乏的语言中实现高准确性。
根据博客文章,语音基础模型帮助按使用量计费的Amazon Transcribe在大多数语言中提高了20-50%的准确性。
亚马逊主要将其ASR服务营销为用户自动创建其内容字幕的方式,但它还提供更专业的版本,包括面向特定行业的Amazon Transcribe Medical,这在最近数据隐私方面困扰口述提供商的领域可能是一位竞争对手。
与Amazon Transcribe的一大语音转文本(STT)竞争对手是OpenAI的Whisper,这是一种于2022年9月推出的用于转录和英语翻译的ASR模型。工作流自动化工具Zapier在2023年4月推出了Whisper API,为Whisper与低代码和无代码技术生态系统提供了更广泛的连接。
Amazon Transcribe于2017年11月首次发布,并迅速在2018年4月升级其服务以支持自定义词汇表。多年来,该服务还逐渐增加了处理数十种语言的能力,从带口音的英语(从2018年11月开始)到更近期(2019年)增加的包括泰米尔语、海湾阿拉伯语和瑞士德语。
在2021年9月,该服务开始为视频文件生成字幕,而在2022年5月,亚马逊推出了批处理语言识别功能(即,在单个音频文件中识别多种语言)。
在2023年1月接受Slator采访时,Happy Scribe首席执行官André Bastié分享说,他的公司依赖于DeepL和Google Translate的组合提供翻译,而亚马逊可能不需要这些工具,因为它拥有庞大的专有数据存储和自己的Amazon Translate工具。然而,正如Bastié指出的那样,数据并不是唯一的问题。
他解释说:“为了能够制作字幕,你需要非常深入的语言理解。你需要理解句子的结构,以便知道在哪里进行分割。制作字幕很容易,但制作可读的字幕却很困难。”
为此,据报道,Amazon Transcribe还提高了可读性,涉及到“更准确的标点和大写用法”。最新版本扩展了对各种口音、噪音环境和声学条件的支持。
尽管有了这些新的功能,但Ai-Media的首席执行官Tony Abrahams在2023年4月告诉Slator,ASR工具存在一些限制,需要人工介入处理尤其复杂的音频,可能占客户音频的10%。
他说:“我认为这个百分比会缩小。但现实情况是,虽然这个内容的百分比可能只有10%,但它往往是我们客户最重要的内容。”
(机器翻译,轻度译后编辑,仅供参考。)
编辑:刘煜珍