Yellow AI的AI研究人员Louis Owen、Vishesh Tripathi、Abhay Kumar和Biddwan Ahmed于2024年3月发表了一篇论文,描述了他们使用Komodo-7B-Instruct大型语言模型(LLM)的经验。
Komodo-7B-Instruct模型是基于Llama-2 LLM构建的。有趣的是,在2023年,Meta认为Llama-2 LLM可能不适用于非英语使用。研究人员声称Komodo LLM改进了语言翻译服务,并“有助于解决印度尼西亚的教育差距,提供从英语到11种地区语言的直接翻译。”
这个专为亚齐语、巴厘语、班加罗语、布吉语、达雅克语、爪哇语、兰普恩语、马都拉语、米南卡保语、苏门答腊语和托巴巴塔克语——以及各种方言——设计的模型拥有70亿个参数,其名称中的7B即表示此。
在论文中,研究人员解释说,他们还试图解决其他高资源和多语言LLM中已知的问题,包括英语偏见和低资源语言的表现不佳。
1-12年级教科书作为数据来源
用于训练和微调Komodo-7B-Instruct LLM的数据集是从开源数据和手动收集的数据中创建的。根据论文,数据来源包括各种主题的印尼教科书、电影字幕的口语数据、新闻和非正式对话。
研究人员解释说,“明智地选择高质量数据已被证明在某些情况下非常有效,甚至达到了最先进的表现”,他们着手创建了一个专门用于理解的模型。由此产生的数据集解决了特定的语言特征,包括语言能力、跨语言理解、常识推理、情感分析和意图分类。
词汇的使用被扩展,包括常见的印尼和地区性词汇。研究人员识别并纳入了大约2000个印尼常用词汇和1000个未包含在Llama-2模型中的地区语言词汇。
在预训练阶段,Komodo-7B-Instruct改进了其定位单词的能力,将相似的单词更紧密地组合在一起。其他数据集准备步骤包括去除重复(单词或短语的过度重复)、质量过滤(过滤低质量或不相关的数据)和去重(去除重复条目)。
模型的训练的一部分还涉及英语数据集和包含英语、印尼语和11种地区语言的所有组合的备选平行数据。研究人员这样做的目的是增强模型对代码混合(多语言)句子的理解。他们还使用了双语下一个标记预测策略,而不是使用翻译的印尼文进行单语下一个标记的预测。
在各项任务中表现更佳
根据研究人员的说法,他们的Komodo LLM在多项任务中超越了各种多语言模型,包括Cohere的Aya-101、MBZUAI的Bactrian-X-llama-7B、Qwen-1.5、Mistral的Mixtral-8x7B-Instruct-v0.1和AISingapore的印尼SEA-LION LLM,对现有基准进行了多项任务的超越,包括Perplexity。它还在范围上超越了谷歌翻译(仅支持印尼语、爪哇语和巽他语)。
研究人员表示,该模型在意图分类、口语语言检测、跨语言情感分析以及跨语言理解(例如印尼语-英语)方面表现出色。Komodo-7B-Base还能够在除GSM8k(数学任务)之外的所有任务中保持Llama-2-7B-Base的性能。
研究人员补充说,Komodo LLM成功设计和微调了“与印尼上下文及其地区语言特定的语言变体,使其在与印尼语和地区语言相关的任务中表现出色”。
除了商业应用之外,该模型的一个重要用例是其在支持印尼各种地区语言用于教育目的方面的潜在作用,根据研究人员的说法。他们的想法是,借助Komodo LLM,“资源和信息可以更广泛地传播,有助于在全国范围内建立更具包容性和公平性的教育格局。”
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘煜珍