TAUS数据销售促进多语言大型语言模型(LLMs)
购买TAUS的独家数据收集,包括近74亿个单词,涵盖483种语言对,现在可以以超过原始价值95%的折扣获得。
今年春天,TAUS以超过原价95%的折扣出售其近74亿字的数据集。销售于3月11日开始,将于2024年4月30日结束。提供的74亿个单词都是非公开的、独特的、人工翻译质量数据,涵盖483种语言对。
在统计MT和神经MT的早期,TAUS数据服务于几十个MT开发人员的相对较小的受众。自2023年以来,情况发生了巨大变化。有了GenAI和LLMs,成千上万的新玩家对定制和改进通用模型感兴趣。TAUS的多语言数据非常相关和有价值,特别是因为大多数LLM几乎只接受过英语语言数据的培训,超过90%。然而,TAUS历史上收取的费用——每百万字训练数据1500至2500欧元——现在对新一代小规模用户来说太高了,他们不太关注通用模型,而更关注定制模型。这就是为什么TAUS数据资产现在可以以高达95%的折扣获得。
“对数据的需求发生了变化”,TAUS的解决方案架构师Amir Kamran说。“LLM开发人员现在正在寻找具有更多上下文的数据,以提高语言生成功能的整体性能和准确性。对于翻译性能,他们倾向于依赖迁移学习,这导致LLMs的多语言和翻译功能表现不佳。TAUS的数据有助于提高翻译质量分数,达到两位数的百分点。”
请联系我们或转到我们的人工智能数据页面获取数据目录、样品和价格表。您可以购买整个集合或选择特定的语言对。
(机器翻译,轻度译后编辑,仅供参考)
编辑:胡跃