中国科技公司阿里巴巴发布了一款大规模的音频语言模型,名为 Qwen-Audio,它能处理超过30种不同的音频任务,包括多语言自动语音识别(ASR)和翻译。
根据阿里巴巴研究人员储云飞、许津、周晓欢、杨倩、张士良、颜志杰、周畅、周景仁于2023年11月发布的一篇论文,前身支持“有限的交互能力范围”,但直接在所有任务和数据集上协同训练模型可能会引起干扰问题。
相比之下,Qwen-Audio 的多任务训练框架使用一组分层标签来促进知识共享,同时避免干扰。作者总结道:“值得注意的是,Qwen-Audio 在各种基准任务上表现出色,无需进行任何特定任务的微调,超越了其竞争对手。”
在2023年12月7日的一篇博客中,AssemblyAI的开发者教育家Marco Ramponi解释说,与文本相比,音频数据更难由大型语言模型(LLMs)处理,因为它往往更加信息密集,通过音调、速度、强调和响度传达信息,例如说话者的情感。
在Ramponi看来,这些挑战使得Qwen-Audio朝着所谓的“通用音频理解”取得的进展更加令人印象深刻——也就是说,这是一种能够解释和“理解”音频输入以进行下游任务,如语音翻译和语音编辑的人工智能系统。
阿里巴巴对Qwen-Audio进行了不同语言风格和声学特性的测试,包括人类语音、自然声音、器乐音乐以及带有歌词的歌曲等广泛的音频范围。Qwen-Audio是基于开源的Qwen-7B语言模型构建的,该模型包含一个32层的Transformer解码器,具有77亿个参数。
据报道,Qwen-Audio可以扩展到八种不同的语言,语音到文本翻译是在CoVoST2数据集上评估的,并在“所有七个翻译方向上”胜过基线模型。然而,论文中具体提到的语言配对只有普通话-英语。
尽管如此,该团队对Qwen-Audio的能力持乐观态度,已经将其作为“Qwen-Audio-Chat”的基础,该系统可以接受来自各种音频和文本输入,实现多轮对话,并支持各种以音频为中心的场景。
在语音翻译领域,阿里巴巴的竞争对手包括谷歌和OpenAI,它们分别通过Gemini和Whisper竞争主导地位。亚马逊和Meta在2023年也表现得同样活跃。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:刘煜珍