OpenAI网站上的强制复选框要求访问者验证他们是人类,在该公司最新发布的GPT-4o之后,这像是在开玩笑。(“o”代表“omni”)
在2024年5月13日的一份声明中,OpenAI将其大型语言模型的最新版本描述为“迈向更加自然的人机交互的一步”,引用了一系列新的或改进的功能,如对话中类似人类的响应时间和通过面部表情解释情绪。 “使用GPT-4o,我们训练了一个跨文本、视觉和音频端到端的单一新模型,这意味着所有输入和输出都由同一个神经网络处理,”新闻稿解释道。
TechCrunch报道称,ChatGPT-4o现在“更加多语言化”,OpenAI声称“在大约50种语言中增强了性能”。
事实上,OpenAI的新闻稿包括一个条形图,比较了OpenAI和几个竞争对手在音频翻译方面的BLEU分数。 根据OpenAI的数据,GPT-4o获得了最高的BLEU分数,Gemini紧随其后。 该公司还指出“非英语语言文本的显著改进”。
资料来源:OpenAI
实时(现场)翻译是专业人士和外行人的长期最爱,不可避免地会被拿来与文学作品中的“巴别鱼”相提并论,产生一波又一波的赞扬和失望。“GPT-4o以第三人称说话打破了当代口译的惯例”。
“没有人告诉他们谷歌翻译已经做了很多年了,”一位观察者在X上的一篇帖子中指出。其他人不同意,评论说GPT-4o“更容易使用”,“速度稍快”。
OpenAI的演示展示了OpenAI首席技术官米拉·穆拉蒂(Mira Murati)之间的一段简短对话,她用意大利语问,拥有语言能力的鲸鱼可能会问人类什么。 “他们可能会问,我们如何求解线性方程组?”她的对话者用英语回答,这显然是对演示早期内容的回调。 有趣的是,GPT-4o打破了当代口译的惯例,用第三人称而不是第一人称说话(对参与者的理解没有明显影响)——评论员在X上指出了这一事实,他们反对不可避免的“译者安息”热点。 除了翻译和口译,许多观察人士还指出,在OpenAI宣布期间,语言学习应用多邻国的份额下降了3%。
英伟达高级研究经理吉姆·范博士形容生成的声音“活泼,甚至有点轻浮。 GPT-4o试图(也许有点太努力了)听起来像她,”指的是2013年的一部电影,在这部电影中,一名男子爱上了由斯嘉丽·约翰逊配音的人工智能虚拟助理。 “这是一个转向更情绪化、个性更强的人工智能的支点,而OpenAI过去似乎一直在积极压制这一点,”范总结道。 OpenAI于2024年5月13日开始推出GPT-4o的文本和图像功能。 根据新闻稿,“我们计划推出支持GPT-4o的新的音频和视频功能,以一个小团体信任的合作伙伴在API在未来几周。”
机器翻译,轻度译后编辑,仅供参考。
编辑:陈驭格