在我的上一篇文章中,我谈到了大型语言模型(LLMs)如何提升命名实体识别(NER)的水平,现在让我们深入了解一下代码。
创建强大的机器学习模型中最大的挑战之一是获取正确标注的数据。幸运的是,大型语言模型(LLMs)可以提供重要帮助。它们使我们能够自动化繁琐的数据标注过程。然而,请记住您不能完全信任一个人工智能。您必须检查标注的数据。
验证已标注的数据比自己标注它们要容易得多。
在本文中,我们将使用LLM来标注客户评论数据集,在下一篇文章中,我们将使用Spacy来创建自定义的命名实体识别(NER)模型。
LLM进行数据标注
让我们从数据标注开始。因为我是个爱吃甜食的人,我想在客户评论中识别甜点。从包含客户评论的数据集中,我们将标注出甜点菜品。借助LLM,我们可以以自动化的方式完成这项任务。
我们可以使用类似于以下的提示:
记得检查标注的数据(例如使用Doccano)。
例如:
给定评论中的甜点参考可以识别为“冰淇淋”和“南瓜奶昔”。JSON对象如下所示:
结论
总的来说,大型语言模型为我们提供了强大的工具,可以自动化和简化常常繁琐的数据标注过程。通过利用这些模型,我们可以显著增强命名实体识别的能力,特别是在识别客户评论中的特定实体,如甜点方面。然而,重要的是要记住,尽管自动化过程可以节省大量时间,但仍然需要人工干预以确保标注数据的质量。
(机器翻译,轻度译后编辑,仅供参考)
编辑:胡跃