第一部分：大语言模型基础 (LLM Fundamentals)

作者：郭宏斌

生成日期：2025 年 3 月 23 日

棱镜极智能-全场景商业智能决策

1. 大语言模型概述 (Overview of LLMs)

1.1 什么是大语言模型？定义、特点与发展历程

定义：能够理解和生成人类语言的深度学习模型

<aside> 💡

大语言模型（Large Language Model，LLM）是一种基于深度学习的神经网络模型，其主要特点是拥有数以亿计甚至数万亿计的参数，并在海量的文本和代码数据上进行训练。

核心定义可以概括为：

大语言模型是一种能够理解和生成人类语言的复杂人工智能模型。

更详细地来说，其关键特征包括：

规模庞大： 拥有非常多的参数，这使得模型能够学习和存储复杂的语言模式和知识。
数据驱动： 通过对大规模文本和代码数据的学习，模型能够理解不同语境下的词语含义、语法规则以及世界知识。
生成能力： 不仅能够理解语言，还能生成连贯、流畅、甚至富有创造性的文本，例如文章、代码、诗歌、对话等等。
Transformer架构： 目前主流的大语言模型都采用 Transformer 神经网络架构，这种架构特别擅长处理序列数据，例如文本。

总而言之，大语言模型是一种强大的 AI 技术，旨在模拟和理解人类语言的能力，并将其应用于各种自然语言处理任务中。

</aside>

发展历程：从 RNN 到 Transformer，再到 GPT 系列等

发展历程总结

年份	国家	公司/机构	模型名称	备注
2018	美国	Google	BERT	基于 Transformer 的双向编码器
2018	美国	OpenAI	GPT-1	基于 Transformer 的生成式模型
2019	美国	OpenAI	GPT-2	更大规模的 GPT 模型
2019	中国	百度	ERNIE 1.0	基于 Transformer 的知识增强模型
2019	美国	Meta (原 Facebook)	RoBERTa	BERT 的改进版本
2019	美国	Meta (原 Facebook)	BART	用于序列到序列任务的 Transformer 模型
2020	美国	Microsoft	Turing-NLG	微软的大规模自然语言生成模型
2020	美国	OpenAI	GPT-3	拥有 1750 亿参数的超大模型
2020	中国	百度	ERNIE 2.0	持续学习的知识增强模型
2021	中国	北京智源人工智能研究院 (BAAI)	Wu Dao 1.0	中国首个超大规模预训练模型
2021	美国	Google	LaMDA	专注于对话应用的大语言模型
2021	中国	清华大学	GLM-130B	开源的千亿级中文和英文双语模型
2021	美国	OpenAI	Codex	专注于代码生成的模型
2021	中国	百度	ERNIE 3.0	更强大的知识增强模型
2022	美国	Google	PaLM	拥有 5400 亿参数的多语言模型
2022	国际合作 (主要在欧洲)	BigScience	BLOOM	开源的多语言大语言模型
2022	美国	OpenAI	InstructGPT	通过人类反馈进行指令微调的 GPT 模型
2022	美国	OpenAI	ChatGPT	基于 GPT-3.5 系列的对话模型
2023	美国	Meta	Llama 1	开源的大语言模型系列
2023	阿联酋	Technology Innovation Institute (TII)	Falcon 7B, 40B	开源的强大语言模型
2023	美国	OpenAI	GPT-4	多模态大语言模型，能力更强
2023	中国	百度	ERNIE 3.0 Titan	更强大的中文大模型
2023	中国	阿里云	Tongyi Qianwen (Qwen) 系列	中国的通用大语言模型，包括 Qwen-7B, Qwen-14B 等
2023	中国	百川智能	Baichuan-7B, Baichuan-13B	中国的开源大语言模型系列
2023	美国	Google	PaLM 2	改进的 PaLM 模型
2023	美国	Anthropic	Claude	注重安全性和对话能力的大模型
2023	美国	Meta	Llama 2	开源的大语言模型系列，商业友好，包括 Llama 2 7B, 13B, 70B
2023	美国	Google	Gemini (早期版本)	多模态大语言模型系列
2023	美国	Microsoft	Phi-1, Phi-1.5	轻量级但性能强大的语言模型
2023	中国	智谱 AI	ChatGLM 系列	开源的中文对话模型
2023	中国	MiniMax	ABAB 系列	中国的对话模型
2023	中国	商汤科技	SenseNova	多功能 AI 模型平台
2023	中国	360 AI	360GPT 系列	中国的通用大语言模型
2024	美国	OpenAI	GPT-4 Turbo	更长上下文窗口、更低价格的 GPT-4 版本
2024	美国	OpenAI	Sora	文本到视频生成模型
2024	美国	Google	Gemini Pro	更强大的 Gemini 版本
2024	美国	Google	Gemini Ultra	最强大的 Gemini 版本
2024	美国	Meta	Llama 3	最新一代 Llama 模型
2024	法国	Mistral AI	Mistral 7B, Mistral Medium, Mistral Large	注重效率和性能的开源大模型
2024	阿联酋	Technology Innovation Institute (TII)	Falcon 2 系列	更新的 Falcon 模型
2024	美国	Anthropic	Claude 3 系列 (Haiku, Sonnet, Opus)	最新一代 Claude 模型，性能大幅提升
2024	美国	xAI	Grok-1, Grok-2	具有特定特点的大语言模型
2024	中国	月之暗面	Kimi Chat	以长文本处理能力著称的大模型
2024	中国	昆仑万维	SkyWork 系列	开源的大语言模型系列
2024	中国	阿里云	Tongyi Qianwen 2.0 (Qwen 2) 系列	更强大的通义千问模型
2024	中国	百度	ERNIE 4.0	最新一代的知识增强大模型
2024	中国	腾讯	Hunyuan (混元) 系列	腾讯的通用大语言模型
2024	中国	科大讯飞	iFlytek Spark (星火) 系列	科大讯飞的认知智能大模型
2025	美国	Google	Gemini 1.5 Pro	具有超长上下文窗口能力的大模型
2025	中国	百度	ERNIE 4.0 (持续更新)

1.2 Transformer 架构基础 (Brief Introduction to Transformer Architecture)

为什么 Transformer 成为 LLM 的主流架构？
自注意力机制 (Self-Attention Mechanism) 的核心思想
Encoder-Decoder 结构

Transformer 架构

1.3 预训练 (Pre-training) 的概念

什么是预训练？为什么需要预训练？

<aside> 💡

在大语言模型（LLM）的上下文中，预训练 (Pre-training) 指的是首先在一个非常庞大且通用的文本数据集（有时也包含代码等其他数据）上训练模型的过程。 这个阶段的目标是让模型学习到通用的语言表示、模式、语法、语义以及一定的世界知识，而并非针对任何特定的下游任务。

你可以将其想象成让模型先读完大量的书籍、文章、网页等，使其对语言有一个广泛而深入的理解，就像一个人类在接受基础教育一样。

预训练通常采用自监督学习 (Self-Supervised Learning) 的方式进行。 这意味着模型在训练过程中不需要人工标注的标签。相反，模型会利用数据本身提供的结构来生成“伪标签”进行学习。一些常见的自监督预训练任务包括：

掩码语言模型 (Masked Language Modeling, MLM)： 例如 BERT 使用这种方式。模型随机地遮盖输入文本中的一些词语，然后尝试预测被遮盖的词语。
下一句预测 (Next Sentence Prediction, NSP)： 例如早期的 BERT 使用这种方式。模型判断两个给定的句子是否在原始文本中是连续出现的。
自回归语言模型 (Autoregressive Language Modeling)： 例如 GPT 系列使用这种方式。模型基于之前的词语预测序列中的下一个词语。 </aside>
自监督学习 (Self-Supervised Learning) 的基本原理

<aside> 💡

自监督学习 (Self-Supervised Learning, SSL) 是一种机器学习范式，其基本原理是利用数据自身固有的结构或属性来创建“伪标签”或“自生成标签”，从而在没有人工标注的情况下训练模型。

核心思想:

SSL 的核心思想是设计一个预训练任务 (Pretext Task)，让模型通过解决这个任务来学习到对原始数据有用的表示 (Representations)。这个预训练任务的标签不是由人工提供的，而是通过某种方式从数据本身自动生成的。

基本原理步骤:
1. 利用无标签数据: SSL 的输入是大量的无标签数据。
2. 设计预训练任务 (Pretext Task): 这是 SSL 的关键步骤。需要设计一个任务，使得模型在尝试解决这个任务的过程中，必须学习到数据的底层结构和有意义的特征。这个任务通常与最终想要解决的实际任务（下游任务，Downstream Task）相关，但不需要人工标注。
3. 生成伪标签 (Generating Pseudo-Labels): 对于选定的预训练任务，根据数据的自身特性自动生成相应的标签。这些标签被称为伪标签，因为它们并非由人工标注，而是通过某种规则或数据的内在结构定义的。
4. 训练模型: 使用生成的伪标签在无标签数据上训练模型。模型的目标是尽可能准确地预测这些伪标签。
5. 学习数据表示 (Learning Data Representations): 在训练过程中，模型会学习到能够有效预测伪标签的数据表示。这些表示被认为捕捉了数据中有用的特征。
6. 下游任务微调 (Fine-tuning for Downstream Tasks): 预训练完成后，模型学到的表示可以被迁移到实际感兴趣的下游任务中。通常，会在下游任务的少量有标签数据上对预训练模型进行微调，以使其适应特定的任务需求。
常见的预训练任务示例 (Pretext Tasks):
- 图像领域:
- 自然语言处理领域:
与监督学习和无监督学习的区别:
- 监督学习: 依赖于大量人工标注的标签数据来训练模型直接完成下游任务。
- 无监督学习: 旨在发现数据中的隐藏模式或结构，例如聚类、降维等，不依赖任何标签。
- 自监督学习: 介于两者之间。它利用无标签数据，但通过人为设计的预训练任务生成伪标签，使得模型能够以一种“监督”的方式学习数据的表示，而无需人工标注。
总结:

自监督学习的核心在于巧妙地设计预训练任务，使得模型在解决这些任务的过程中，能够自动地学习到对原始数据有用的、通用的特征表示。这些学到的表示可以作为强大的基础，有效地提升模型在各种下游任务上的性能，尤其是在标注数据有限的情况下。

</aside>
常用的预训练任务 (例如 Masked Language Modeling, Next Sentence Prediction 等)