2022年底,Open AI发布 耳语,语音转文本 人工智能 (AI) 引领新一波开源自动语音识别 (ASR) 模型的技术。Whisper 真正具有革命性的原因在于,它是第一个免费提供的商业级 ASR 模型。它还具有语言检测的附加功能,这是同类技术中的首创(据我们所知!),并且可以翻译成不同语言的文本。所有这些都使 Whisper 能够超越市场上任何其他开源 ASR 模型。
产品范围
Whisper 有多种模型大小,从微小(3900 万个参数)到大(15.5 亿个参数)不等,适用于 不同的用例.在缩短响应时间至关重要的情况下,例如电话或会议转录,这种微型模型非常适合实现近乎实时的性能。但它可能会比其参数化程度更高的兄弟犯更多的错误,并且转录质量会随着专业化或特定领域内容的增加而急剧下降。大型模型需要更多的硬件投资才能使其在生产中实用,但对于更长的短语和句子以及更专业的内容来说,它是最佳选择,这使得它适合 字幕方案.
微调结果
如果您的用例涉及相当一致的输入内容,那么微调可能是一项值得的投资。所需要做的就是收集一组音频转录对的训练集,将音频转换为 16kHz 的采样率,并且只需几行代码,任何 Whisper 语音转文本 AI 模型都可以根据您的内容进行微调。
从音频中进行语言检测
这些模型提供的最具创新性的功能之一是从音频中检测语言。虽然从文本中检测语言并不是一个完全“解决”的问题,但基于字符 n-gram 的解决方案已经存在多年。但是,据我们所知,在 Whisper 之前,没有任何工具可以从原始音频中进行语言检测。此功能是通过在训练数据中的成绩单开头添加一个特殊令牌来实现的,该令牌表示转录的语言。这使得 Whisper 可以在推理时预测转录的语言,即使语言是未知的。
局限性
当涉及到已知的限制时,根据我们的经验,Whisper在代码切换场景中表现不佳(例如,当一个音频中混合了多种语言时)。此外,即使没有请求翻译,它偶尔也会生成翻译成不同语言的输出。
结论:
最近,Meta(原名Facebook)发布了自己的开源自动语音识别模型,在不久的将来肯定会有更多。但 Whisper 作为新一代 ASR 技术中的第一款,已被证明是高质量语音转文本模型的基准。凭借其语言检测等尖端功能和针对不同用例的各种模型大小,Whisper 将在未来几年继续改变行业。
了解有关 Whisper 的更多信息
如果您想了解更多关于这种新的将语音转换为文本的技术以及它如何为您的用例服务的信息,请联系 aiteam@transperfect.com。