作者:郭宏斌

生成日期:2025 年 3 月 23 日

棱镜极智能-全场景商业智能决策

1. 大语言模型概述 (Overview of LLMs)

1.1 什么是大语言模型?定义、特点与发展历程

<aside> 💡

大语言模型(Large Language Model,LLM)是一种基于深度学习的神经网络模型,其主要特点是拥有数以亿计甚至数万亿计的参数,并在海量的文本和代码数据上进行训练。

核心定义可以概括为:

大语言模型是一种能够理解和生成人类语言的复杂人工智能模型。

更详细地来说,其关键特征包括:

总而言之,大语言模型是一种强大的 AI 技术,旨在模拟和理解人类语言的能力,并将其应用于各种自然语言处理任务中。

</aside>

image.png

年份 国家 公司/机构 模型名称 备注
2018 美国 Google BERT 基于 Transformer 的双向编码器
2018 美国 OpenAI GPT-1 基于 Transformer 的生成式模型
2019 美国 OpenAI GPT-2 更大规模的 GPT 模型
2019 中国 百度 ERNIE 1.0 基于 Transformer 的知识增强模型
2019 美国 Meta (原 Facebook) RoBERTa BERT 的改进版本
2019 美国 Meta (原 Facebook) BART 用于序列到序列任务的 Transformer 模型
2020 美国 Microsoft Turing-NLG 微软的大规模自然语言生成模型
2020 美国 OpenAI GPT-3 拥有 1750 亿参数的超大模型
2020 中国 百度 ERNIE 2.0 持续学习的知识增强模型
2021 中国 北京智源人工智能研究院 (BAAI) Wu Dao 1.0 中国首个超大规模预训练模型
2021 美国 Google LaMDA 专注于对话应用的大语言模型
2021 中国 清华大学 GLM-130B 开源的千亿级中文和英文双语模型
2021 美国 OpenAI Codex 专注于代码生成的模型
2021 中国 百度 ERNIE 3.0 更强大的知识增强模型
2022 美国 Google PaLM 拥有 5400 亿参数的多语言模型
2022 国际合作 (主要在欧洲) BigScience BLOOM 开源的多语言大语言模型
2022 美国 OpenAI InstructGPT 通过人类反馈进行指令微调的 GPT 模型
2022 美国 OpenAI ChatGPT 基于 GPT-3.5 系列的对话模型
2023 美国 Meta Llama 1 开源的大语言模型系列
2023 阿联酋 Technology Innovation Institute (TII) Falcon 7B, 40B 开源的强大语言模型
2023 美国 OpenAI GPT-4 多模态大语言模型,能力更强
2023 中国 百度 ERNIE 3.0 Titan 更强大的中文大模型
2023 中国 阿里云 Tongyi Qianwen (Qwen) 系列 中国的通用大语言模型,包括 Qwen-7B, Qwen-14B 等
2023 中国 百川智能 Baichuan-7B, Baichuan-13B 中国的开源大语言模型系列
2023 美国 Google PaLM 2 改进的 PaLM 模型
2023 美国 Anthropic Claude 注重安全性和对话能力的大模型
2023 美国 Meta Llama 2 开源的大语言模型系列,商业友好,包括 Llama 2 7B, 13B, 70B
2023 美国 Google Gemini (早期版本) 多模态大语言模型系列
2023 美国 Microsoft Phi-1, Phi-1.5 轻量级但性能强大的语言模型
2023 中国 智谱 AI ChatGLM 系列 开源的中文对话模型
2023 中国 MiniMax ABAB 系列 中国的对话模型
2023 中国 商汤科技 SenseNova 多功能 AI 模型平台
2023 中国 360 AI 360GPT 系列 中国的通用大语言模型
2024 美国 OpenAI GPT-4 Turbo 更长上下文窗口、更低价格的 GPT-4 版本
2024 美国 OpenAI Sora 文本到视频生成模型
2024 美国 Google Gemini Pro 更强大的 Gemini 版本
2024 美国 Google Gemini Ultra 最强大的 Gemini 版本
2024 美国 Meta Llama 3 最新一代 Llama 模型
2024 法国 Mistral AI Mistral 7B, Mistral Medium, Mistral Large 注重效率和性能的开源大模型
2024 阿联酋 Technology Innovation Institute (TII) Falcon 2 系列 更新的 Falcon 模型
2024 美国 Anthropic Claude 3 系列 (Haiku, Sonnet, Opus) 最新一代 Claude 模型,性能大幅提升
2024 美国 xAI Grok-1, Grok-2 具有特定特点的大语言模型
2024 中国 月之暗面 Kimi Chat 以长文本处理能力著称的大模型
2024 中国 昆仑万维 SkyWork 系列 开源的大语言模型系列
2024 中国 阿里云 Tongyi Qianwen 2.0 (Qwen 2) 系列 更强大的通义千问模型
2024 中国 百度 ERNIE 4.0 最新一代的知识增强大模型
2024 中国 腾讯 Hunyuan (混元) 系列 腾讯的通用大语言模型
2024 中国 科大讯飞 iFlytek Spark (星火) 系列 科大讯飞的认知智能大模型
2025 美国 Google Gemini 1.5 Pro 具有超长上下文窗口能力的大模型
2025 中国 百度 ERNIE 4.0 (持续更新)

1.2 Transformer 架构基础 (Brief Introduction to Transformer Architecture)

1.3 预训练 (Pre-training) 的概念

<aside> 💡

在大语言模型(LLM)的上下文中,预训练 (Pre-training) 指的是首先在一个非常庞大且通用的文本数据集(有时也包含代码等其他数据)上训练模型的过程。 这个阶段的目标是让模型学习到通用的语言表示、模式、语法、语义以及一定的世界知识,而并非针对任何特定的下游任务

你可以将其想象成让模型先读完大量的书籍、文章、网页等,使其对语言有一个广泛而深入的理解,就像一个人类在接受基础教育一样。

预训练通常采用自监督学习 (Self-Supervised Learning) 的方式进行。 这意味着模型在训练过程中不需要人工标注的标签。相反,模型会利用数据本身提供的结构来生成“伪标签”进行学习。一些常见的自监督预训练任务包括: