大型语言模型(LLM)是基于大量数据进行预训练的超大型深度学习模型。底层转换器是一组神经网络,这些神经网络由具有自注意力功能的编码器和解码器组成。编码器和解码器从一系列文本中提取含义,并理解其中的单词和短语之间的关系。
转换器 LLM 能够进行无监督的训练,但更精确的解释是转换器可以执行自主学习。通过此过程,转换器可学会理解基本的语法、语言和知识。
与早期按顺序处理输入的循环神经网络(RNN)不同,转换器并行处理整个序列。这可让数据科学家使用 GPU 训练基于转换器的 LLM,从而大幅度缩短训练时间。
借助转换器神经网络架构,您可使用非常大规模的模型,其中通常具有数千亿个参数。这种大规模模型可以摄取通常来自互联网的大量数据,但也可以从包含 500 多亿个网页的 Common Crawl 和拥有约 5700 万个页面的 Wikipedia 等来源摄取数据。
根据维基百科上的信息,自然语言处理(NLP)的历史与大型语言模型的发展紧密相关。以下是一些关键的历史时刻:
(1)早期探索:机器翻译的历史可以追溯到17世纪,哲学家如莱布尼茨和笛卡尔提出了关于语言之间单词关系的编码提案。1950年,艾伦·图灵发表了著名的文章《计算机器与智能》,提出了现在称为图灵测试的智能标准。
1960年代,出现了一些显著的NLP系统,如SHRDLU,这是一个在限制性“块世界”中工作的自然语言系统。
1970年,William A. Woods引入了增强过渡网络(ATN),用于表示自然语言输入。
1980年代末,NLP领域发生了革命,引入了用于语言处理的机器学习算法。
这一时期,研究逐渐聚焦于统计模型,这些模型基于输入数据的特征赋予实值权重,做出软性、概率性的决策。
最近的研究越来越多地聚焦于无监督和半监督学习算法,这些算法能够从未经手动标注的数据中学习。
BERT(Bidirectional Encoder Representations from Transformers)是谷歌推出的模型,采用了Transformer架构,特别在理解语言上下文方面取得了突破。
GPT(Generative Pre-trained Transformer)系列,从GPT到GPT-3,逐步提升了模型的规模和能力,特别是GPT-3以其巨大的参数规模和广泛的应用能力而闻名。
GitHub Copilot是由GitHub和OpenAI共同开发的AI编程助手,基于OpenAI的Codex模型,专门针对编程语言进行了训练。它能够根据注释自动生成代码片段,支持多种编程语言。
Claude是由Anthropic开发的一种大型语言模型,这个模型在设计时特别注重安全性和可解释性,旨在创建一个更可靠、更符合伦理的AI。
ERNIE(Enhanced Representation through Knowledge Integration)是百度推出的一系列模型,特别在中文NLP任务中表现出色。
文心一言是百度开发的聊天机器人,能够与人互动、回答问题及协作创作,被视为ChatGPT的中国竞争对手。
通译千问是科大讯飞推出的大型语言模型,专注于机器翻译和跨语言理解,提供高质量的翻译服务。
天工开物是华为推出的大型预训练语言模型,旨在提高机器理解和生成自然语言的能力。
讯飞星火是科大讯飞推出的另一个重要的语言模型,主要用于语音识别和语音合成,强化了讯飞在语音技术领域的领先地位。
LLMs是通过深度学习训练出来的神经网络模型,能够执行各种语言任务,如文本生成、翻译、摘要、问答等。
大部分LLMs基于一个叫做“Transformer”的神经网络架构。Transformer架构根据Encoder编码得到的上下文语义,再通过Decoder多轮注意力解码实现语言理解与生成。
预训练: 在海量文本数据上进行无监督预训练,学习文本的统计规律和语言表示。预训练可提高模型对语言的理解能力。
微调: 针对特定任务(如翻译、摘要等)进一步训练,使用少量标注数据对预训练模型进行微调,使其在特定领域表现更优。
处理: 模型通过自注意力机制处理输入文本,理解上下文和语义。
输出: 模型生成响应,这可能是答案、续写的文本或其他相关信息。
LLM能够根据用户给出的提示词,生成自然语言,例如文案、小说、脚本、问卷等一系列书面内容。用户给出的提示越详细,生成的内容质量也越高。
该技术通常称为知识密集型自然语言处理(KI-NLP),是指可以根据数字存档中的信息帮助回答特定问题的 LLM。
LLM相比传统的搜索引擎,可以更深入地理解语言并找到相关的结果。它不仅支持用户输入关键词,还支持长短句以及具体明确的问题。
LLM可以自动从源语言文本数据中提取出关键词、短语等特征,从而更好地理解句子的语义和结构,提高机器翻译的准确性和流畅性。
LLM 擅长根据自然语言提示生成代码,例如 JavaScript、Python、PHP、Java 和 C# 等编程语言的代码。
使用集群, LLM可以对含义或情绪相似的文本进行分类。用途包括衡量客户情绪、确定文本之间的关系和文档搜索。
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
原创来源:北外CAT课程展示-张恩桐、罗邵雯-2023
推文编辑:张恩桐、罗邵雯