FunAudioLLM:打破语言壁垒,开启多语音交流!

分享

其他推荐

技术应用|FunAudioLLM:打破语言壁垒,开启多语音交流!

语言服务行业

 

2024年08月23日 00:00 

阿里巴巴集团的研究人员开发了多模态语音交互框架FunAudioLLM,该框架由语音识别和情感分析模型SenseVoice和自然语音生成模型CosyVoice组成,实现了低延迟、高精度、多语言和情感丰富的语音交互体验,并在语音翻译、情感语音聊天、互动播客和有声书旁白等领域展现出广泛的应用前景。

论文介绍

语音交互技术随着人工智能 (AI) 的进步而显著发展。该领域专注于增强人机之间的自然交流,旨在使交互更加直观和人性化。最近的发展使得实现高精度语音识别、情绪检测和自然语音生成成为可能。研究人员一直在创建能够处理多种语言和理解情绪的模型,使交互更加无缝和人性化。
语音交互的主要挑战在于增强与大型语言模型 (LLM) 的自然语音交互。当前的系统在延迟、多语言支持以及生成具有情感共鸣和上下文适当的语音方面通常需要帮助。这些限制阻碍了无缝和人性化的交互。增强这些系统理解和开发跨不同语言和情感环境的准确语音的能力对于推进人机交互至关重要。
现有的语音交互方法包括各种语音识别和生成模型。Whisper 等用于语音识别的工具以及用于情绪检测和音频事件分类的传统模型为语音交互奠定了基础。然而,这些方法通常无法提供跨多种语言的低延迟、高精度和情感丰富的交互。显然,需要一个更强大、更通用的解决方案来有效地处理这些任务。
阿里巴巴集团的研究人员推出了 FunAudioLLM,它包含两个核心模型:SenseVoice 和 CosyVoice。SenseVoice 在多语言语音识别、情绪识别和音频事件检测方面表现出色,支持 50 多种语言。CosyVoice 专注于自然语音生成,允许控制语言、音色、说话风格和说话人身份。通过结合这些模型,该研究团队旨在突破语音交互技术的界限。
FunAudioLLM 背后的技术建立在 SenseVoice 和 CosyVoice 的先进架构之上。SenseVoice-Small 使用非自回归模型进行五种语言的低延迟语音识别,其性能比 Whisper-small 快五倍以上,比 Whisper-large 快十五倍以上。SenseVoice-Large 支持 50 多种语言的语音识别,提供高精度并支持情绪识别和音频事件检测等复杂任务。CosyVoice 采用监督语义语音标记进行自然且具有情感表达力的语音生成,能够进行零样本学习和跨语言语音克隆。
FunAudioLLM 的性能与现有模型相比有显着改进。SenseVoice 比 Whisper 实现了更快、更准确的语音识别。例如,SenseVoice-Small 的识别延迟小于 80 毫秒,远低于其对应模型。与 Whisper 相比,SenseVoice-Large 在多种语言中表现出高精度的自动语音识别 (ASR),词错误率 (WER) 降低了 20% 以上。CosyVoice 擅长生成针对特定说话人的多语言语音,WER 低于 2%,说话人相似度得分超过 75%,与人类相当。它支持零样本上下文学习,只需三秒的提示即可进行语音克隆,并通过指令文本提供对语音输出的详细控制。
最后,阿里巴巴集团的研究人员展示了 FunAudioLLM 可以通过各种实用方式应用。这些应用包括语音到语音翻译,使用户能够使用自己的声音说外语;情感语音聊天,模型可以理解和回应情绪,实现更人性化的互动;互动播客,允许用户与多个大型模型进行实时讨论;以及富有表现力的有声读物旁白,为有声读物提供多角色旁白。SenseVoice 和 CosyVoice 与 LLM 的集成实现了这些高级功能,展示了 FunAudioLLM 在突破语音交互技术边界方面的潜力。

论文下载

  • 论文地址:https://arxiv.org/abs/2407.04051

  • Github地址:https://github.com/FunAudioLLM

声明:本公众号转载此文章是出于传播行业资讯、洞见之目的,如有侵犯到您的合法权益,请致信:532541801@qq.com,我们将及时调整处理。谢谢支持!
【语言服务行业】分享群

群内会定期推送语言服务行业最新动态、活动预告、竞赛通知?等内容~

 

欢迎你的加入?!

 
-END-
Was it helpful ?

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注