Kyutai Labs发布具备实时语音功能的Moshi AI聊天机器人,与GPT-4o同台竞技

分享

其他推荐

翻译和人工智能

人工智能在翻译中的作用         人工智能(AI)已成为翻译的重要组成部分。了解人工智能和机器翻译(MT

阅读更多»

法国公司Kyutai Labs刚刚发布了Moshi AI,这是一个能够实时语音回应的AI聊天机器人。他们宣布,Moshi的语音语言模型完全由其内部开发,能够调节声音表达情感,并以多种说话风格回应。用户可以免费访问该AI模型,但当前对话时长仅限五分钟。有趣的是,OpenAI在发布GPT-4o时也宣布了类似的语音功能,但它尚未发布。

Moshi AI特点

该公司称,此AI模型是在六个月内由八人团队开发完成的。在巴黎的一场活动上,Kyutai Labs发布了这个AI模型,称Moshi不是一个AI助手,而是一个可以用于开发不同用例工具的原型。他们还将这款聊天机器人公开提供大众。用户可以输入他们的电邮并排队等待。

平台界面设计非常简约。有一个简化的AI设计,用户可以检查他们说话时的音量。还有一个文本框,只显示AI的回应。顶部附近的另一个框显示技术细节,如音频持续时间、延迟和未接收到的音频。

在最顶部有一个断开通话的按钮。目前,最长通话时间可以为五分钟。简介页面注明,Moshi可以同时进行思考、说话和听音,最大化对话的流畅性。

Moshi的延迟非常低,通常会立即响应。但在少数情况下,响应时间的延迟可能超过10-15秒,这可能是服务器负载过重造成的。但是,有时即使音量提示条已达到四分之三,语音指令也未被记录下来。

Moshi可以用情绪化的声音进行回应,并且可以使用不同的风格和各种声音调节。该AI模型连接互联网,可以获取网页查询的响应。值得注意的是,这个聊天机器人不允许发送文字指令提示,声音是唯一的交互媒介。

Kyutai Labs表示,这一AI模型将开源。然而,此公司尚未在门户网站上托管模型权重和代码。一旦可用,用户将能够下载并在本地安装,可以在未连接设备上运行。

(机器翻译,轻度译后编辑,仅供参考)

编辑:田逸云

原文链接

Was it helpful ?

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注