Kyutai Labs发布具备实时语音功能的Moshi AI聊天机器人，与GPT-4o同台竞技

法国公司Kyutai Labs刚刚发布了Moshi AI，这是一个能够实时语音回应的AI聊天机器人。他们宣布，Moshi的语音语言模型完全由其内部开发，能够调节声音表达情感，并以多种说话风格回应。用户可以免费访问该AI模型，但当前对话时长仅限五分钟。有趣的是，OpenAI在发布GPT-4o时也宣布了类似的语音功能，但它尚未发布。

Moshi AI的特点

该公司称，此AI模型是在六个月内由八人团队开发完成的。在巴黎的一场活动上，Kyutai Labs发布了这个AI模型，称Moshi不是一个AI助手，而是一个可以用于开发不同用例工具的原型。他们还将这款聊天机器人公开提供大众。用户可以输入他们的电邮并排队等待。

平台界面设计非常简约。有一个简化的AI设计，用户可以检查他们说话时的音量。还有一个文本框，只显示AI的回应。顶部附近的另一个框显示技术细节，如音频持续时间、延迟和未接收到的音频。

在最顶部有一个断开通话的按钮。目前，最长通话时间可以为五分钟。简介页面注明，Moshi可以同时进行思考、说话和听音，最大化对话的流畅性。

Moshi的延迟非常低，通常会立即响应。但在少数情况下，响应时间的延迟可能超过10-15秒，这可能是服务器负载过重造成的。但是，有时即使音量提示条已达到四分之三，语音指令也未被记录下来。

Moshi可以用情绪化的声音进行回应，并且可以使用不同的风格和各种声音调节。该AI模型连接互联网，可以获取网页查询的响应。值得注意的是，这个聊天机器人不允许发送文字指令提示，声音是唯一的交互媒介。

Kyutai Labs表示，这一AI模型将开源。然而，此公司尚未在门户网站上托管模型权重和代码。一旦可用，用户将能够下载并在本地安装，可以在未连接设备上运行。

（机器翻译，轻度译后编辑，仅供参考）

编辑：田逸云

原文链接

Was it helpful ?

还有问题？我们能帮忙吗？