来自加州大学圣地亚哥分校的Onkar Litake, Niraj Yagnik和Shreyas Labhsetwar在2024年1月23日的一篇论文中证明,在提高文本分类任务中的模型性能方面,基础数据增强技术比大型语言模型更有效。作者比较了六种印度语言(印地语、泰卢固语、马拉地语、古吉拉特语、信德语和梵语)的文本分类的各种数据增强技术,包括简单数据增强、反向翻译、使用大语言模型的释义、使用大语言模型的文本生成和使用大语言模型的文本扩展。对于这六种语言中的每一种,他们将数据增强应用于两项任务:i)二进制分类和ii)多类文本分类。
正如作者所解释的那样,这项工作的主要动机是缺乏对印度语言数据增强的研究,尽管它有可能增强自然语言处理任务,如新闻分类、仇恨检测、情感分析、情感分析和垃圾邮件分类。
最小的关注点
他们指出,虽然在增加英语语言的数据方面做了大量工作,但对印度语言的关注却很少,尽管在资源匮乏的语言环境中经常采用增加数据的方法来克服与数据缺乏有关的挑战。
作者对每种语言和任务的预训练BERT模型进行了微调,利用增强的数据集,并将性能与基线模型进行了比较。他们强调,“印度语言中没有这样的文本增强工作。”
基本数据增强技术超越大语言模型
结果显示,在所有语言中,增强方法在二元和多类分类任务上的表现始终优于基线模型,这表明数据增强技术在提高低资源印度语言模型性能方面的有效性。
其中,基础数据增强技术优于大语言模型。具体来说,简单数据增强是一个明显占优势,在所有语言中都表现出一致的性能。令人惊讶的是,随机删除方法也显示出良好的性能,尽管它删除了每个句子中的信息。
作者承认他们的工作的局限性,并表示由于无法获得大多数其他印度语言的词嵌入而限制了一组特定语言的范围。此外,他们表示打算在未来的工作中探索更多的增强技术。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:曾钰璇