大型语言模型的训练中数据标注的重要性 – 语言服务资源网

大型语言模型的训练中数据标注的重要性

分享

其他推荐

从翻译视角看跨文化词汇的流转 | Typhoon 一词的由来

2025年8月4日

翻译时，警惕这些“假朋友”！（一）

2025年8月4日

阿里巴巴AI实时翻译拓展至119种语言

2025年8月4日

2025年语言行业趋势展望 | 未来何处？

2025年8月4日

“AI赋能翻译教育”系列专访 | 对话黑龙江大学孙超院长：探秘DTI建设与课程创新

2025年8月4日

Loc World专栏 | 利用人工智能提升本地化质量与效率（文末PDF领取）

2025年8月4日

【王华树教授团队推荐】人工智能领域50本精选书单（收藏）

2025年8月4日

即将开课｜大语言模型赋能外语专业教育创新研修班【西安】

2025年8月4日

翻译院校篇 | 罗格斯大学

2025年7月29日

如何为译文“赋魂”？

2025年7月29日

大型语言模型的训练中数据标注的重要性

大型语言模型在理论上可以在没有标记数据的情况下发挥功能。像GPT3这样的模型使用自监督或无监督学习来开发理解自然语言的能力。它不是使用带有注释的数据进行训练，而是使用下一个词预测方法来学习如何以最具上下文逻辑的方式完成句子。

尽管它们很智能，但大型语言模型并不完美，通常不适用于实际应用。以下是原因。

大型语言模型本身无法执行专业化或业务特定的任务。例如，你不能将ChatGPT用作公司的聊天机器人，因为它没有针对你的产品或服务进行训练。

大型语言模型容易受到偏见的影响，这会影响它们的响应准确性和适用性。这可能导致在安全、金融和其他关键行业中产生昂贵的不公平预测。

像GPT这样的模型可能会在缺乏额外监管的情况下被滥用或误用。作为预训练模型，它们可能会用不合适的文本、过时的信息或虚构的事实进行回应。

通常情况下，大型语言模型（LLMs）依赖它们所训练的数据集以及它们的自我监督能力。然而，现实中的模型往往存在期望输出与实际性能之间的差距，这使得数据标记成为必不可少的环节。与训练整个模型相比，人类标注者协助优化模型以适用于实际应用。

以下，我们概述了标注如何改善LLMs的整体性能、准确性和适用性。

预训练

虽然大型语言模型在训练过程中不直接使用标注数据，但人类标注者仍然对其有益。通常情况下，这样的模型成本太高，无法重新训练，凸显了人类标注者在减少错误方面的重要性。标注者会清理数据集中的噪音和错误，从而提高训练模型的可靠性。

微调

数据标注对于定制大型语言模型以满足特定应用需求至关重要。例如，您可以使用对您的业务或行业有深入了解的数据来对GPT 模型进行微调。通过这种方式，您可以创建类似 ChatGPT 的聊天机器人，以更新的产品知识与客户进行互动。

模型评估

研究人员不断推出新的语言模型，因此需要一种公平的方式来评估它们的性能。带注释的数据提供了一个单一的基准真相，可以用来比较不同模型之间的性能指标，如精确度、召回率或F1分数。

上下文理解

大型语言模型通常比它们的前身更擅长理解不同的语言上下文和细微差别。尽管如此，不是所有的模型在理解人类语言的复杂性方面都同样擅长。因此，注释有助于提升它们在理解和回应不同语言风格方面的能力。

使用数据标注来优化大型语言模型的三个步骤：以ChatGPT为例

一个预训练的GPT模型能够将句子串联起来，但需要进一步的细化以适应特定的目的。ChatGPT使用了一种称为强化学习人类反馈（RHLF）的技术进行了微调，以改进其目标对齐性。RHLF的工作原理是在预训练模型根据标记的数据集预测可能的输出时对其进行奖励。

为了微调ChatGPT，OpenAI的工程师们经历了以下步骤。

第一步：监督式微调（SFT）

SFT（Supervised Fine Tuning）涉及一个人类标注者团队创建一组提示和它们的预期输出。然后，工程师们使用提示-输出组合对基础的GPT模型进行训练，以生成一个SFT模型。由于这种方法是手动完成的，成本高且缺乏可伸缩性。而且，标注者创建的数据集不足以对像GPT这样大的模型进行彻底微调，这引出了下一步。

第二步：奖励模型

奖励模型克服了 SFT 模型缩放的能力。工程师不再需要从头创建数据集，而是使用 SFT 模型自动生成多个针对提示的答案。然后，注释者对答案进行排名，以反映最佳到最不理想的匹配程度。

通过这种方法，OpenAI 的工程师可以生成一个更大的数据集，而不受人力资源的限制。然后，他们使用这个数据集来训练奖励模型，以预测基于人类偏好的 SFT 模型的分数。

第三步：近端策略优化（PPO）

在最后阶段，工程师创建了一个涉及 PPO 和奖励模型的强化学习机制。PPO 模型是 LLM 模型的一个副本，它生成一个输出，然后奖励模型为其分配一个分数。根据分数，PPO 模型将调整其策略，并在下一次迭代中改进其性能。

（机器翻译，轻度译后编辑，仅供参考）

编辑：胡跃

Was it helpful ?

还有问题？我们能帮忙吗？