作者:郭宏斌
生成日期:2025 年 3 月 23 日
<aside> 💡
大语言模型(Large Language Model,LLM)是一种基于深度学习的神经网络模型,其主要特点是拥有数以亿计甚至数万亿计的参数,并在海量的文本和代码数据上进行训练。
核心定义可以概括为:
大语言模型是一种能够理解和生成人类语言的复杂人工智能模型。
更详细地来说,其关键特征包括:
总而言之,大语言模型是一种强大的 AI 技术,旨在模拟和理解人类语言的能力,并将其应用于各种自然语言处理任务中。
</aside>

| 年份 | 国家 | 公司/机构 | 模型名称 | 备注 |
|---|---|---|---|---|
| 2018 | 美国 | BERT | 基于 Transformer 的双向编码器 | |
| 2018 | 美国 | OpenAI | GPT-1 | 基于 Transformer 的生成式模型 |
| 2019 | 美国 | OpenAI | GPT-2 | 更大规模的 GPT 模型 |
| 2019 | 中国 | 百度 | ERNIE 1.0 | 基于 Transformer 的知识增强模型 |
| 2019 | 美国 | Meta (原 Facebook) | RoBERTa | BERT 的改进版本 |
| 2019 | 美国 | Meta (原 Facebook) | BART | 用于序列到序列任务的 Transformer 模型 |
| 2020 | 美国 | Microsoft | Turing-NLG | 微软的大规模自然语言生成模型 |
| 2020 | 美国 | OpenAI | GPT-3 | 拥有 1750 亿参数的超大模型 |
| 2020 | 中国 | 百度 | ERNIE 2.0 | 持续学习的知识增强模型 |
| 2021 | 中国 | 北京智源人工智能研究院 (BAAI) | Wu Dao 1.0 | 中国首个超大规模预训练模型 |
| 2021 | 美国 | LaMDA | 专注于对话应用的大语言模型 | |
| 2021 | 中国 | 清华大学 | GLM-130B | 开源的千亿级中文和英文双语模型 |
| 2021 | 美国 | OpenAI | Codex | 专注于代码生成的模型 |
| 2021 | 中国 | 百度 | ERNIE 3.0 | 更强大的知识增强模型 |
| 2022 | 美国 | PaLM | 拥有 5400 亿参数的多语言模型 | |
| 2022 | 国际合作 (主要在欧洲) | BigScience | BLOOM | 开源的多语言大语言模型 |
| 2022 | 美国 | OpenAI | InstructGPT | 通过人类反馈进行指令微调的 GPT 模型 |
| 2022 | 美国 | OpenAI | ChatGPT | 基于 GPT-3.5 系列的对话模型 |
| 2023 | 美国 | Meta | Llama 1 | 开源的大语言模型系列 |
| 2023 | 阿联酋 | Technology Innovation Institute (TII) | Falcon 7B, 40B | 开源的强大语言模型 |
| 2023 | 美国 | OpenAI | GPT-4 | 多模态大语言模型,能力更强 |
| 2023 | 中国 | 百度 | ERNIE 3.0 Titan | 更强大的中文大模型 |
| 2023 | 中国 | 阿里云 | Tongyi Qianwen (Qwen) 系列 | 中国的通用大语言模型,包括 Qwen-7B, Qwen-14B 等 |
| 2023 | 中国 | 百川智能 | Baichuan-7B, Baichuan-13B | 中国的开源大语言模型系列 |
| 2023 | 美国 | PaLM 2 | 改进的 PaLM 模型 | |
| 2023 | 美国 | Anthropic | Claude | 注重安全性和对话能力的大模型 |
| 2023 | 美国 | Meta | Llama 2 | 开源的大语言模型系列,商业友好,包括 Llama 2 7B, 13B, 70B |
| 2023 | 美国 | Gemini (早期版本) | 多模态大语言模型系列 | |
| 2023 | 美国 | Microsoft | Phi-1, Phi-1.5 | 轻量级但性能强大的语言模型 |
| 2023 | 中国 | 智谱 AI | ChatGLM 系列 | 开源的中文对话模型 |
| 2023 | 中国 | MiniMax | ABAB 系列 | 中国的对话模型 |
| 2023 | 中国 | 商汤科技 | SenseNova | 多功能 AI 模型平台 |
| 2023 | 中国 | 360 AI | 360GPT 系列 | 中国的通用大语言模型 |
| 2024 | 美国 | OpenAI | GPT-4 Turbo | 更长上下文窗口、更低价格的 GPT-4 版本 |
| 2024 | 美国 | OpenAI | Sora | 文本到视频生成模型 |
| 2024 | 美国 | Gemini Pro | 更强大的 Gemini 版本 | |
| 2024 | 美国 | Gemini Ultra | 最强大的 Gemini 版本 | |
| 2024 | 美国 | Meta | Llama 3 | 最新一代 Llama 模型 |
| 2024 | 法国 | Mistral AI | Mistral 7B, Mistral Medium, Mistral Large | 注重效率和性能的开源大模型 |
| 2024 | 阿联酋 | Technology Innovation Institute (TII) | Falcon 2 系列 | 更新的 Falcon 模型 |
| 2024 | 美国 | Anthropic | Claude 3 系列 (Haiku, Sonnet, Opus) | 最新一代 Claude 模型,性能大幅提升 |
| 2024 | 美国 | xAI | Grok-1, Grok-2 | 具有特定特点的大语言模型 |
| 2024 | 中国 | 月之暗面 | Kimi Chat | 以长文本处理能力著称的大模型 |
| 2024 | 中国 | 昆仑万维 | SkyWork 系列 | 开源的大语言模型系列 |
| 2024 | 中国 | 阿里云 | Tongyi Qianwen 2.0 (Qwen 2) 系列 | 更强大的通义千问模型 |
| 2024 | 中国 | 百度 | ERNIE 4.0 | 最新一代的知识增强大模型 |
| 2024 | 中国 | 腾讯 | Hunyuan (混元) 系列 | 腾讯的通用大语言模型 |
| 2024 | 中国 | 科大讯飞 | iFlytek Spark (星火) 系列 | 科大讯飞的认知智能大模型 |
| 2025 | 美国 | Gemini 1.5 Pro | 具有超长上下文窗口能力的大模型 | |
| 2025 | 中国 | 百度 | ERNIE 4.0 (持续更新) |
为什么 Transformer 成为 LLM 的主流架构?
自注意力机制 (Self-Attention Mechanism) 的核心思想
Encoder-Decoder 结构
<aside> 💡
在大语言模型(LLM)的上下文中,预训练 (Pre-training) 指的是首先在一个非常庞大且通用的文本数据集(有时也包含代码等其他数据)上训练模型的过程。 这个阶段的目标是让模型学习到通用的语言表示、模式、语法、语义以及一定的世界知识,而并非针对任何特定的下游任务。
你可以将其想象成让模型先读完大量的书籍、文章、网页等,使其对语言有一个广泛而深入的理解,就像一个人类在接受基础教育一样。
预训练通常采用自监督学习 (Self-Supervised Learning) 的方式进行。 这意味着模型在训练过程中不需要人工标注的标签。相反,模型会利用数据本身提供的结构来生成“伪标签”进行学习。一些常见的自监督预训练任务包括:
掩码语言模型 (Masked Language Modeling, MLM): 例如 BERT 使用这种方式。模型随机地遮盖输入文本中的一些词语,然后尝试预测被遮盖的词语。
下一句预测 (Next Sentence Prediction, NSP): 例如早期的 BERT 使用这种方式。模型判断两个给定的句子是否在原始文本中是连续出现的。
自回归语言模型 (Autoregressive Language Modeling): 例如 GPT 系列使用这种方式。模型基于之前的词语预测序列中的下一个词语。 </aside>
自监督学习 (Self-Supervised Learning) 的基本原理
<aside> 💡
自监督学习 (Self-Supervised Learning, SSL) 是一种机器学习范式,其基本原理是利用数据自身固有的结构或属性来创建“伪标签”或“自生成标签”,从而在没有人工标注的情况下训练模型。
核心思想:
SSL 的核心思想是设计一个预训练任务 (Pretext Task),让模型通过解决这个任务来学习到对原始数据有用的表示 (Representations)。这个预训练任务的标签不是由人工提供的,而是通过某种方式从数据本身自动生成的。
基本原理步骤:
常见的预训练任务示例 (Pretext Tasks):
与监督学习和无监督学习的区别:
总结:
自监督学习的核心在于巧妙地设计预训练任务,使得模型在解决这些任务的过程中,能够自动地学习到对原始数据有用的、通用的特征表示。这些学到的表示可以作为强大的基础,有效地提升模型在各种下游任务上的性能,尤其是在标注数据有限的情况下。
</aside>
常用的预训练任务 (例如 Masked Language Modeling, Next Sentence Prediction 等)