大语言模型（LLM）工作原理——用人话版 - 博客

不用数学公式，用最通俗的比喻理解大语言模型。什么是 Token？模型为什么会产生幻觉？参数多意味着什么？读完你就懂了。

课程概述

如果你用过 ChatGPT 或 DeepSeek，你可能会好奇：它到底是怎么"理解"我说的话的？它是在思考，还是在做数学题？

这门课用人话解释大语言模型的工作原理。不需要数学背景，不需要编程经验——你只需要好奇心。

学完这门课，你会理解：LLM 不是魔法，它是概率 + 规模 + 人类反馈的产物。

学习目标

理解"语言模型"的核心概念：预测下一个词
了解 Transformer 架构为什么是革命性的
明白"预训练"和"微调"的区别
知道大模型的四种关键能力以及它们是怎么来的
破除"AI 有意识"的常见误解

课程内容

1. 一个游戏帮你理解 LLM 的本质

我们来玩一个游戏。我给你一句话，你猜下一个词是什么：

"今天天气真——"

你可能会猜"好""不错""热""冷"。你的大脑自动评估了每个词的概率——"好"的概率最高，"糟糕"的概率较低。

大语言模型做的，本质上就是这件事。

只不过：

它不是基于 20 年的生活经验，而是基于几乎整个互联网的文本
它不只是在两个词之间选，而是在几万个可能的词中计算概率
它一秒钟可以做这件事几十次，生成一个完整的段落

关键认知：LLM 不是"思考"出答案，它是"预测"出答案。 你给它"1+1="，它预测下一个最可能是"2"。这不是因为它理解了数学，而是因为它在训练数据中见过几百万次"1+1=2"。

2. 从"统计语言模型"到"大语言模型"——三阶段进化

阶段一：N-gram 模型（上世纪 50-90 年代）

最简单的语言模型：数数。统计"天气"后面出现过哪些词，数它们的频率。"今天天气真"后面"好"出现过 1000 次、"糟糕"出现过 100 次 → 预测"好"。

问题很明显：它只看前面一两个词。"我出生在法国，我会说一口流利的——"，只看"流利的"，它不知道填什么。但你知道是"法语"——因为你理解了前面"法国"。N-gram 没有"理解"，只有统计。

阶段二：神经网络语言模型（2000-2010 年代）

用神经网络代替查表。优点是能"记住"更远的上下文，但效果仍然有限——句子一长，网络就"忘"了开头说了什么。

阶段三：Transformer + 大语言模型（2017 至今）

2017 年，Google 团队发表了一篇论文《Attention Is All You Need》。这篇论文提出的 Transformer 架构解决了"长距离依赖"问题——模型能同时关注句子中的所有词，不管它们相隔多远。

这就是为什么 ChatGPT 能记住 2000 个字前你说的话。不是因为它的"记忆力"好，而是 Transformer 的注意力机制让它能同时"看到"整个对话。

3. Transformer 的核心创新——"注意力"到底是什么？

想象你在一场嘈杂的鸡尾酒会上。几十个人同时说话，但你能专注于面前那个人的声音。你的大脑自动过滤了其他声音——这就是"注意力"。

Transformer 的自注意力机制（Self-Attention） 做的是类似的事。

举个例子。句子："小明把苹果给了小红，她很高兴。"

传统模型困惑："她"指的是小明还是小红？Transformer 的做法：计算"她"和句中每个词的关联强度——

"她"→"小红"：关联度 0.8 "她"→"小明"：关联度 0.15 "她"→"苹果"：关联度 0.05

模型"知道"——"她"很可能指小红。这不是通过规则（"代词指代最近的名词"），而是通过海量训练自动学到的模式。

Transformer 的三个关键组件：

组件	作用	类比
自注意力层	让每个词关注所有其他词	阅读时前后文互相对照
前馈网络	对每个词做非线性变换	对每个词做"深度理解"
残差连接 + 层归一化	让深层网络稳定训练	盖高楼时的加固层

一个 GPT-4 级别的模型，会堆叠上百层这样的结构。每一层提取更抽象的特征——第一层理解词义、第十层理解句法、第五十层理解逻辑关系……

4. 训练的真相：为什么需要"大"？

第一步：预训练（Pre-training）——读遍天下书

给模型喂入互联网上几乎所有公开文本：网页、书籍、论文、代码、对话……数万亿个词。任务很简单：预测下一个词。

比如它读到："巴黎是___的首都"。模型猜"法国"——猜错了（正确答案是"法国"），调整参数；再猜，再调整……重复几万亿次。

这个过程需要：

海量数据： GPT-3 的训练数据约 45TB 文本
海量算力： 训练一次 GPT-3 的电费大约 460 万美元
时间： 训练过程持续数周到数月

经过预训练，模型获得了世界知识——它知道巴黎是法国的首都，知道水在 100 度沸腾，知道《红楼梦》的作者是曹雪芹。但它还不知道怎么和人对话。

第二步：指令微调（Instruction Tuning）——学会"听懂人话"

预训练后的模型只会"续写"。"请帮我写一封邮件"→模型续写"的模板如下"——它是按照续写逻辑，不是按照指令逻辑。

指令微调用大量的"指令→回答"对来训练："请帮我写一封邮件"→"[实际的邮件内容]"、"翻译这段文字"→"[翻译结果]"、"总结这篇文章"→"[总结内容]"。

经过这一步，模型学会了：当用户说"帮我做X"时，它应该输出X的结果，而不是续写用户的话。

第三步：RLHF（人类反馈强化学习）——学会"好好说话"

指令微调后的模型有时回答不够好：太啰嗦、不够准确、不够安全。RLHF 的思路是：

让人类对模型的多个回答进行排名
训练一个"奖励模型"来预测人类更喜欢哪个回答
用这个奖励模型来进一步优化大语言模型

经过 RLHF，模型的回答变得更有用、更准确、更安全。这就是为什么 ChatGPT 的回答比原始 GPT-3 好那么多——差距主要不在知识量，而在对齐质量。

5. 大模型的四种"涌现能力"

当模型规模超过某个阈值（约 1000 亿参数），一些在较小模型上不存在的能力突然出现。这就是涌现（Emergence）。

能力	描述	例子
上下文学习	从提示词中的例子学会做新任务	给 3 个例句，就能按格式翻译
思维链推理	分步骤推理复杂问题	解数学题时一步步推导
指令遵循	理解并执行自然语言指令	"用三年级学生能听懂的话解释"
多语言能力	跨语言迁移知识	用中文问，能用英文回答

为什么涌现让人惊讶？

因为这些能力不是被"编程"进去的。没有人告诉 GPT-3 "你应该会思维链推理"。它只是被训练来预测下一个词——但在这个过程中，它"自动"学会了推理。

这就像一个小孩读了足够多的书后，突然能自己分析问题了一样。我们不完全理解为什么——这是当前 AI 研究中最热门的话题之一。

6. 三个常见问题，用大白话回答

Q1: LLM 有意识吗？

没有。它是一台"下一个词预测机"。虽然它的回答看起来像真人在思考，但背后是概率计算，不是意识。它不会"想要"什么，不会"害怕"什么，不会在你不理它的时候感到孤独。

类比：一个计算器能算 12345 × 67890，但不是因为它"会数学"——它只是执行电路运算。LLM 也一样，只不过它处理的是语言。

Q2: LLM 会犯错吗？

会。而且犯得很"自信"。AI 会"幻觉"——编造听起来合理但完全错误的信息。比如它会言之凿凿地告诉你某个历史事件的日期，但那个日期是它"预测"出来的，不是"回忆"出来的。永远核实 AI 给你的关键信息。

Q3: 为什么要用这么多算力？

因为语言比我们想象的复杂得多。理解一句话需要：词的多义性（"苹果"是水果还是公司？）、上下文（指代消解）、隐含信息（"你吃饭了吗"是问候不是审问）、逻辑关系（因果、转折、递进）……处理这些需要海量参数和计算。

实操练习

概率实验（5 分钟）： 打开任意 AI 聊天工具，输入"今天天气真"然后让 AI 补全。再输入"虽然今天天气真"——观察 AI 的补全有什么不同？为什么"虽然"会改变预测？
思维链观察（10 分钟）： 问 AI 一个需要多步推理的问题，比如"一个水池有一个进水口和一个出水口。进水口单独灌满需要 3 小时，出水口单独放空需要 5 小时。如果两个口同时打开，多久能灌满水池？"第一次直接问答案，第二次在提示词中加上"请一步一步思考"——对比两次回答的差异。
幻觉检测（10 分钟）： 问 AI 一个你知道答案但你确定其信息很冷门的问题（比如你老家某个小景点的情况）。观察 AI 是诚实说不知道，还是编造了听起来合理的内容。

总结

LLM 的工作原理可以概括为三句话：

预训练让它从海量文本中学到了世界知识
Transformer 的注意力机制让它能理解长距离的语义关系
指令微调 + RLHF 让它学会了"听懂人话"和"好好说话"

它不是在思考——它是在做极其复杂的概率计算。但恰恰是这种"简单的原理 + 海量的规模"，产生了看似智能的行为。

下一课我们将横向对比主流 AI 模型，帮你选出最适合自己的那一款。