大语言模型(LLM)工作原理——用人话版
不用数学公式,用最通俗的比喻理解大语言模型。什么是 Token?模型为什么会产生幻觉?参数多意味着什么?读完你就懂了。
课程概述
如果你用过 ChatGPT 或 DeepSeek,你可能会好奇:它到底是怎么"理解"我说的话的?它是在思考,还是在做数学题?
这门课用人话解释大语言模型的工作原理。不需要数学背景,不需要编程经验——你只需要好奇心。
学完这门课,你会理解:LLM 不是魔法,它是概率 + 规模 + 人类反馈的产物。
学习目标
- 理解"语言模型"的核心概念:预测下一个词
- 了解 Transformer 架构为什么是革命性的
- 明白"预训练"和"微调"的区别
- 知道大模型的四种关键能力以及它们是怎么来的
- 破除"AI 有意识"的常见误解
课程内容
1. 一个游戏帮你理解 LLM 的本质
我们来玩一个游戏。我给你一句话,你猜下一个词是什么:
"今天天气真——"
你可能会猜"好""不错""热""冷"。你的大脑自动评估了每个词的概率——"好"的概率最高,"糟糕"的概率较低。
大语言模型做的,本质上就是这件事。
只不过:
- 它不是基于 20 年的生活经验,而是基于几乎整个互联网的文本
- 它不只是在两个词之间选,而是在几万个可能的词中计算概率
- 它一秒钟可以做这件事几十次,生成一个完整的段落
关键认知:LLM 不是"思考"出答案,它是"预测"出答案。 你给它"1+1=",它预测下一个最可能是"2"。这不是因为它理解了数学,而是因为它在训练数据中见过几百万次"1+1=2"。
2. 从"统计语言模型"到"大语言模型"——三阶段进化
阶段一:N-gram 模型(上世纪 50-90 年代)
最简单的语言模型:数数。统计"天气"后面出现过哪些词,数它们的频率。"今天天气真"后面"好"出现过 1000 次、"糟糕"出现过 100 次 → 预测"好"。
问题很明显:它只看前面一两个词。"我出生在法国,我会说一口流利的——",只看"流利的",它不知道填什么。但你知道是"法语"——因为你理解了前面"法国"。N-gram 没有"理解",只有统计。
阶段二:神经网络语言模型(2000-2010 年代)
用神经网络代替查表。优点是能"记住"更远的上下文,但效果仍然有限——句子一长,网络就"忘"了开头说了什么。
阶段三:Transformer + 大语言模型(2017 至今)
2017 年,Google 团队发表了一篇论文《Attention Is All You Need》。这篇论文提出的 Transformer 架构解决了"长距离依赖"问题——模型能同时关注句子中的所有词,不管它们相隔多远。
这就是为什么 ChatGPT 能记住 2000 个字前你说的话。不是因为它的"记忆力"好,而是 Transformer 的注意力机制让它能同时"看到"整个对话。
3. Transformer 的核心创新——"注意力"到底是什么?
想象你在一场嘈杂的鸡尾酒会上。几十个人同时说话,但你能专注于面前那个人的声音。你的大脑自动过滤了其他声音——这就是"注意力"。
Transformer 的自注意力机制(Self-Attention) 做的是类似的事。
举个例子。句子:"小明把苹果给了小红,她很高兴。"
传统模型困惑:"她"指的是小明还是小红?Transformer 的做法:计算"她"和句中每个词的关联强度——
"她"→"小红":关联度 0.8 "她"→"小明":关联度 0.15 "她"→"苹果":关联度 0.05
模型"知道"——"她"很可能指小红。这不是通过规则("代词指代最近的名词"),而是通过海量训练自动学到的模式。
Transformer 的三个关键组件:
| 组件 | 作用 | 类比 |
|---|---|---|
| 自注意力层 | 让每个词关注所有其他词 | 阅读时前后文互相对照 |
| 前馈网络 | 对每个词做非线性变换 | 对每个词做"深度理解" |
| 残差连接 + 层归一化 | 让深层网络稳定训练 | 盖高楼时的加固层 |
一个 GPT-4 级别的模型,会堆叠上百层这样的结构。每一层提取更抽象的特征——第一层理解词义、第十层理解句法、第五十层理解逻辑关系……
4. 训练的真相:为什么需要"大"?
第一步:预训练(Pre-training)——读遍天下书
给模型喂入互联网上几乎所有公开文本:网页、书籍、论文、代码、对话……数万亿个词。任务很简单:预测下一个词。
比如它读到:"巴黎是___的首都"。模型猜"法国"——猜错了(正确答案是"法国"),调整参数;再猜,再调整……重复几万亿次。
这个过程需要:
- 海量数据: GPT-3 的训练数据约 45TB 文本
- 海量算力: 训练一次 GPT-3 的电费大约 460 万美元
- 时间: 训练过程持续数周到数月
经过预训练,模型获得了世界知识——它知道巴黎是法国的首都,知道水在 100 度沸腾,知道《红楼梦》的作者是曹雪芹。但它还不知道怎么和人对话。
第二步:指令微调(Instruction Tuning)——学会"听懂人话"
预训练后的模型只会"续写"。"请帮我写一封邮件"→模型续写"的模板如下"——它是按照续写逻辑,不是按照指令逻辑。
指令微调用大量的"指令→回答"对来训练:"请帮我写一封邮件"→"[实际的邮件内容]"、"翻译这段文字"→"[翻译结果]"、"总结这篇文章"→"[总结内容]"。
经过这一步,模型学会了:当用户说"帮我做X"时,它应该输出X的结果,而不是续写用户的话。
第三步:RLHF(人类反馈强化学习)——学会"好好说话"
指令微调后的模型有时回答不够好:太啰嗦、不够准确、不够安全。RLHF 的思路是:
- 让人类对模型的多个回答进行排名
- 训练一个"奖励模型"来预测人类更喜欢哪个回答
- 用这个奖励模型来进一步优化大语言模型
经过 RLHF,模型的回答变得更有用、更准确、更安全。这就是为什么 ChatGPT 的回答比原始 GPT-3 好那么多——差距主要不在知识量,而在对齐质量。
5. 大模型的四种"涌现能力"
当模型规模超过某个阈值(约 1000 亿参数),一些在较小模型上不存在的能力突然出现。这就是涌现(Emergence)。
| 能力 | 描述 | 例子 |
|---|---|---|
| 上下文学习 | 从提示词中的例子学会做新任务 | 给 3 个例句,就能按格式翻译 |
| 思维链推理 | 分步骤推理复杂问题 | 解数学题时一步步推导 |
| 指令遵循 | 理解并执行自然语言指令 | "用三年级学生能听懂的话解释" |
| 多语言能力 | 跨语言迁移知识 | 用中文问,能用英文回答 |
为什么涌现让人惊讶?
因为这些能力不是被"编程"进去的。没有人告诉 GPT-3 "你应该会思维链推理"。它只是被训练来预测下一个词——但在这个过程中,它"自动"学会了推理。
这就像一个小孩读了足够多的书后,突然能自己分析问题了一样。我们不完全理解为什么——这是当前 AI 研究中最热门的话题之一。
6. 三个常见问题,用大白话回答
Q1: LLM 有意识吗?
没有。它是一台"下一个词预测机"。虽然它的回答看起来像真人在思考,但背后是概率计算,不是意识。它不会"想要"什么,不会"害怕"什么,不会在你不理它的时候感到孤独。
类比:一个计算器能算 12345 × 67890,但不是因为它"会数学"——它只是执行电路运算。LLM 也一样,只不过它处理的是语言。
Q2: LLM 会犯错吗?
会。而且犯得很"自信"。AI 会"幻觉"——编造听起来合理但完全错误的信息。比如它会言之凿凿地告诉你某个历史事件的日期,但那个日期是它"预测"出来的,不是"回忆"出来的。永远核实 AI 给你的关键信息。
Q3: 为什么要用这么多算力?
因为语言比我们想象的复杂得多。理解一句话需要:词的多义性("苹果"是水果还是公司?)、上下文(指代消解)、隐含信息("你吃饭了吗"是问候不是审问)、逻辑关系(因果、转折、递进)……处理这些需要海量参数和计算。
实操练习
-
概率实验(5 分钟): 打开任意 AI 聊天工具,输入"今天天气真"然后让 AI 补全。再输入"虽然今天天气真"——观察 AI 的补全有什么不同?为什么"虽然"会改变预测?
-
思维链观察(10 分钟): 问 AI 一个需要多步推理的问题,比如"一个水池有一个进水口和一个出水口。进水口单独灌满需要 3 小时,出水口单独放空需要 5 小时。如果两个口同时打开,多久能灌满水池?"第一次直接问答案,第二次在提示词中加上"请一步一步思考"——对比两次回答的差异。
-
幻觉检测(10 分钟): 问 AI 一个你知道答案但你确定其信息很冷门的问题(比如你老家某个小景点的情况)。观察 AI 是诚实说不知道,还是编造了听起来合理的内容。
总结
LLM 的工作原理可以概括为三句话:
- 预训练让它从海量文本中学到了世界知识
- Transformer 的注意力机制让它能理解长距离的语义关系
- 指令微调 + RLHF 让它学会了"听懂人话"和"好好说话"
它不是在思考——它是在做极其复杂的概率计算。但恰恰是这种"简单的原理 + 海量的规模",产生了看似智能的行为。
下一课我们将横向对比主流 AI 模型,帮你选出最适合自己的那一款。