使用Palmyra LLMs引入多语言功能

Palmyra经过了严格的基准测试，以衡量其在翻译和文本生成方面的表现。事实上，据Stanford HELM’s的最新消息，在WMT 2014-BLEU-4（衡量翻译性能的领先基准）上，Palmyra在所有模型中得分最高，超过了Google的PaLM、Anthropic的Claude和OpenAI的GPT-4。

为了进一步评估语言的翻译准确性，Writer团队将Palmyra支持的各种语言用另一种常用的翻译基准BLEU进行了测试。BLEU得分60分以上表明质量超过人工翻译。我们很高兴地告诉大家，Palmyra的语言得分在52.5到79.3之间。

为了评估Palmyra的多语言文本生成能力的质量，Writer团队根据MMLU和MLMM基准按语言评估了输出。这些测试涵盖57项任务，包括初等数学、美国历史、计算机科学、法律等。为了获得高分，模特必须拥有广泛的世界知识和解决问题的技能。

相比之下，在Stanford HELM的最新更新中，Palmyra在英语MMLU上获得了70.2分，在所有评估的生产就绪模型中得分最高。我们很高兴地告诉大家， Palmyra的MMLU和MLMM非英语语言的分数在63.3到77.9之间。

最常用语言文本生成基准(MMLU/MLMM)西班牙语：72.5法语：69.1中文（简体）：71.7印地语：77.9阿拉伯语：68.9俄语：75.1翻译基准(BLEU)西班牙语：79.3法语：63.1中文（简体）：63.8印地语：68.4阿拉伯语：61.2俄语：65.2

虽然这些基准测试结果很强，就像任何生成式人工智能输出一样，但生成的文本只应被视为出色的初稿。我们建议人类专家审查所有输出以保证准确性。在这里查看按语言划分的详细基准测试结果.

无尽的现实世界应用

多语言功能现在可以在聊天界面、Ask Writer、桌面体验和自定义应用程序中使用。以下是这些新功能可以支持整个组织更快运行的几种方式：

用潜在客户的语言创建个性化的出站电子邮件，缩短销售周期
通过将产品描述快速翻译成多种语言，加快上市时间
通过为支持团队提供以本地语言回答问题的数字助理，提高客户满意度

强大的LLMs家族

其多语言能力的准确性只是Palmyra LLMs在其领域脱颖而出的原因之一。Palmyra接受了1万亿正式写作标记的训练，完全可审计，能够检查代码、数据和模型权重。我们对客户数据保密，绝不会将其用于或共享用于模型培训。除了在Stanford HELM排名第一之外，Palmyra还为医疗保健等特定行业进行了微调。

企业选择Writer全栈创成式人工智能平台不仅是因为我们强大的模型，也是因为我们的基于图像的RAG，知识图，强大的人工智能护栏和灵活的应用层。Writer让企业用生成式人工智能轻松改近工作流程。

要了解更多关于我们的多语言能力和Palmyra LLMs的能力，安排演示和我们的销售团队一起。

（机器翻译，轻度译后编辑，仅供参考）

编辑：胡跃

原文链接

Was it helpful ?

还有问题？我们能帮忙吗？