什么是大语言模型
大型语言模型(LLMs)是使用大量数据训练的语言神经网络模型。它们主要基于Transformer神经网络架构。与其前身不同,Transformer能够同时关注多个单词,这使得模型能够理解远距离单词之间的关系。
像GPT、Bard和BERT这样的语言模型属于大型语言模型。因此,它们可以与用户交谈并用自然语言构建答案。然而,它们的智能性是以巨大的成本和所需的海量原始数据为代价的。尽管如此,这些模型在下游应用中的能力也存在一定的限制,我们将在下文中进行解释。
大型语言模型是如何训练的?
准备和预处理
首先,数据科学家从各种来源,包括互联网、书籍和公共数据集,筛选大量的原始文本数据。然后,注释者清洗数据,确保它们没有错误、噪音或偏见。这之后,将原始数据转换为模型理解的格式,通过预处理步骤如标记化。标记化将文本数据转换为由单词或子词组成的较小语言单位。
训练和优化
大型语言模型如GPT-3使用下一个标记预测和蒙版级建模来发展对语言结构的自然理解。
- 下一个标记预测使模型能够预测当前标记之后最可能出现的单词或标记。例如,模型尝试用单词“blue”完成短语“The ocean is ___”。
- 蒙版级建模涉及随机删除句子中的特定单词或短语。然后,模型被提示预测适合空白处的合适单词或短语。
这两种自然语言处理训练方法使模型能够提高提供最相关输出的概率。它通过将生成的输出与期望的结果进行比较来实现。然后,将差异或错误传递给网络进行后续优化。模型可以通过评估其损失梯度来重新调整其参数和权重,以弥合生成的差异。这个过程是迭代的,模型重复这些步骤直到达到满意的性能。
模型评估和微调
最后,训练好的模型会经历评估测试,机器学习工程师会将其提供一组带有注释的测试数据。根据结果,他们可能进一步调整模型的参数,或者继续对其进行微调以满足特定的目的。后者涉及监督式训练,即将带有注释的数据集提供给模型。
(机器翻译,轻度译后编辑,仅供参考)
编辑:胡跃
。