谷歌研究和DeepMind首席科学家杰夫·迪恩有很多事情要做。但是在2024年2月15日X上的推文,推出谷歌多模态的最新版本Gemini 1.5 Pro大语言模型(LLM),迪恩只需要再补充一点。
“我想提请大家注意Kalamang的超低资源翻译用例,”Dean在后面的文章中强调。“从一本语法书中学习语境语言!”58页的技术报告还更详细地解释了Gemini 1.5 Pro在“学习”Kalamang方面的成功,描述为“说话者少于200人,因此实际上没有出现在网络上,这意味着模型必须依赖于上下文中给出的数据(而不是训练时存储在权重中的知识)。”
这个基准,称为“一本书机器翻译(MT)“或MTOB,似乎是Gemini 1.5 Pro之前建立的基准——尽管相对较新,在2023年的一篇论文中。该论文的结论呼应了不时出现在MT相关标题中的人类平等的说法,特别是估计“当给一本卡拉芒语语法手册【……】时,模型学习将英语翻译成卡拉芒语的水平与一个人学习相同内容的水平相似。”
一位持怀疑态度的人说:“这听起来非常可疑。”反驳“不是只有200个人能说翻译好不好吗?他们参与进来了吗?”但是粉丝们并没有被吓倒。一名观察员问LLM是否可以以冰岛语等其他语言试运行。其他人称之为Gemini 1.5 Pro”真令人印象深刻“和”令人兴奋的是,即使在后GPT4时代.”(Gemini 1.5 Pro的发布紧随2024年2月发布)研究论文谷歌实际上邀请了这样的比较,在其论文中特别指出,Gemini 1.5 Pro的性能优于专家模型,如OpenAI的Whisper,在音频理解方面,包括具有较长上下文音频的任务。
该模型的前身在这项任务中同样优于Whisper,尽管最新的实验也涵盖了Gemini 1.5 Pro的主要特性,即处理长上下文的能力,这里定义为70万字的文本和40-105分钟的视频。对作者来说,更重要的发现是Gemini 1.5 Pro的长上下文功能并没有损害其音频理解。
机器翻译,轻度译后编辑,仅供参考。
编辑:张梓琦