在提升低资源语言性能方面基础数据增强优于大型语言模型(LLMs)

加州大学圣迭戈分校的Onkar Litake、Niraj Yagnik和Shreyas Labhsetwar在2024年1月23日的一篇论文中证明,基础数据增强技术对于改善文本分类任务的模型性能更为有效。

作者在六种印度语言(印地语、泰卢固语、马拉地语、古吉拉特语、信德语和梵文)中比较了各种文本分类的数据增强技术,包括易数据增强(EDA)、反向翻译、使用LLMs的释义、使用LLMs的文本生成以及使用LLMs的文本扩展。对于这六种语言,他们将数据增强应用于两个任务:i)二元分类和ii)多类文本分类。

正如作者所解释的,这项工作的主要动机是尽管数据增强对于提升印度语言的自然语言处理(NLP)任务(如新闻分类、仇恨检测、情感分析、情感分析和垃圾邮件分类)的潜力巨大,但对于印度语言的数据增强研究仍然不足。

最小化关注度

研究者指出,尽管在英语语境下对数据增强进行了广泛研究,但对印度语言的关注却很有限,尽管数据增强通常用于克服低资源语境中与数据稀缺相关的挑战。

作者为每种语言和任务微调了预训练的BERT模型,利用增强的数据集进行比较,将其性能与基准模型进行了对比。他们强调“在印度语言的文本增强方面并不存在类似的研究”。

基础数据增强技术超越大型语言模型

结果显示,对于所有语言,在二元和多类分类任务中,增强方法始终优于基线模型,突显了数据增强技术在增强低资源印度语言模型性能方面的功效。

在各种方法中,基础数据增强技术优于大型语言模型。具体而言,易数据增强(EDA)表现出色,跨所有语言表现一致。令人惊讶的是,即使似乎从每个句子中删除信息,随机删除方法也表现出良好的性能。

作者承认他们的工作存在局限性,由于大多数其他印度语言缺乏词嵌入,因此局限于特定一组语言。此外,他们表达了在未来工作中探索更多增强技术的意图。

(机器翻译,轻度译后编辑,仅供参考。)

原文链接

编辑:刘煜珍