返回博客

大语言模型(LLM)工作原理——用人话版

2026年5月29日阅读约 21 分钟

不用数学公式,用最通俗的比喻理解大语言模型。什么是 Token?模型为什么会产生幻觉?参数多意味着什么?读完你就懂了。

课程概述

如果你用过 ChatGPT 或 DeepSeek,你可能会好奇:它到底是怎么"理解"我说的话的?它是在思考,还是在做数学题?

这门课用人话解释大语言模型的工作原理。不需要数学背景,不需要编程经验——你只需要好奇心。

学完这门课,你会理解:LLM 不是魔法,它是概率 + 规模 + 人类反馈的产物。

学习目标

  • 理解"语言模型"的核心概念:预测下一个词
  • 了解 Transformer 架构为什么是革命性的
  • 明白"预训练"和"微调"的区别
  • 知道大模型的四种关键能力以及它们是怎么来的
  • 破除"AI 有意识"的常见误解

课程内容

1. 一个游戏帮你理解 LLM 的本质

我们来玩一个游戏。我给你一句话,你猜下一个词是什么:

"今天天气真——"

你可能会猜"好""不错""热""冷"。你的大脑自动评估了每个词的概率——"好"的概率最高,"糟糕"的概率较低。

大语言模型做的,本质上就是这件事。

只不过:

  • 它不是基于 20 年的生活经验,而是基于几乎整个互联网的文本
  • 它不只是在两个词之间选,而是在几万个可能的词中计算概率
  • 它一秒钟可以做这件事几十次,生成一个完整的段落

关键认知:LLM 不是"思考"出答案,它是"预测"出答案。 你给它"1+1=",它预测下一个最可能是"2"。这不是因为它理解了数学,而是因为它在训练数据中见过几百万次"1+1=2"。

2. 从"统计语言模型"到"大语言模型"——三阶段进化

阶段一:N-gram 模型(上世纪 50-90 年代)

最简单的语言模型:数数。统计"天气"后面出现过哪些词,数它们的频率。"今天天气真"后面"好"出现过 1000 次、"糟糕"出现过 100 次 → 预测"好"。

问题很明显:它只看前面一两个词。"我出生在法国,我会说一口流利的——",只看"流利的",它不知道填什么。但你知道是"法语"——因为你理解了前面"法国"。N-gram 没有"理解",只有统计。

阶段二:神经网络语言模型(2000-2010 年代)

用神经网络代替查表。优点是能"记住"更远的上下文,但效果仍然有限——句子一长,网络就"忘"了开头说了什么。

阶段三:Transformer + 大语言模型(2017 至今)

2017 年,Google 团队发表了一篇论文《Attention Is All You Need》。这篇论文提出的 Transformer 架构解决了"长距离依赖"问题——模型能同时关注句子中的所有词,不管它们相隔多远。

这就是为什么 ChatGPT 能记住 2000 个字前你说的话。不是因为它的"记忆力"好,而是 Transformer 的注意力机制让它能同时"看到"整个对话。

3. Transformer 的核心创新——"注意力"到底是什么?

想象你在一场嘈杂的鸡尾酒会上。几十个人同时说话,但你能专注于面前那个人的声音。你的大脑自动过滤了其他声音——这就是"注意力"。

Transformer 的自注意力机制(Self-Attention) 做的是类似的事。

举个例子。句子:"小明把苹果给了小红,她很高兴。"

传统模型困惑:"她"指的是小明还是小红?Transformer 的做法:计算"她"和句中每个词的关联强度——

"她"→"小红":关联度 0.8 "她"→"小明":关联度 0.15 "她"→"苹果":关联度 0.05

模型"知道"——"她"很可能指小红。这不是通过规则("代词指代最近的名词"),而是通过海量训练自动学到的模式。

Transformer 的三个关键组件:

组件作用类比
自注意力层让每个词关注所有其他词阅读时前后文互相对照
前馈网络对每个词做非线性变换对每个词做"深度理解"
残差连接 + 层归一化让深层网络稳定训练盖高楼时的加固层

一个 GPT-4 级别的模型,会堆叠上百层这样的结构。每一层提取更抽象的特征——第一层理解词义、第十层理解句法、第五十层理解逻辑关系……

4. 训练的真相:为什么需要"大"?

第一步:预训练(Pre-training)——读遍天下书

给模型喂入互联网上几乎所有公开文本:网页、书籍、论文、代码、对话……数万亿个词。任务很简单:预测下一个词。

比如它读到:"巴黎是___的首都"。模型猜"法国"——猜错了(正确答案是"法国"),调整参数;再猜,再调整……重复几万亿次。

这个过程需要:

  • 海量数据: GPT-3 的训练数据约 45TB 文本
  • 海量算力: 训练一次 GPT-3 的电费大约 460 万美元
  • 时间: 训练过程持续数周到数月

经过预训练,模型获得了世界知识——它知道巴黎是法国的首都,知道水在 100 度沸腾,知道《红楼梦》的作者是曹雪芹。但它还不知道怎么和人对话。

第二步:指令微调(Instruction Tuning)——学会"听懂人话"

预训练后的模型只会"续写"。"请帮我写一封邮件"→模型续写"的模板如下"——它是按照续写逻辑,不是按照指令逻辑。

指令微调用大量的"指令→回答"对来训练:"请帮我写一封邮件"→"[实际的邮件内容]"、"翻译这段文字"→"[翻译结果]"、"总结这篇文章"→"[总结内容]"。

经过这一步,模型学会了:当用户说"帮我做X"时,它应该输出X的结果,而不是续写用户的话。

第三步:RLHF(人类反馈强化学习)——学会"好好说话"

指令微调后的模型有时回答不够好:太啰嗦、不够准确、不够安全。RLHF 的思路是:

  1. 让人类对模型的多个回答进行排名
  2. 训练一个"奖励模型"来预测人类更喜欢哪个回答
  3. 用这个奖励模型来进一步优化大语言模型

经过 RLHF,模型的回答变得更有用、更准确、更安全。这就是为什么 ChatGPT 的回答比原始 GPT-3 好那么多——差距主要不在知识量,而在对齐质量。

5. 大模型的四种"涌现能力"

当模型规模超过某个阈值(约 1000 亿参数),一些在较小模型上不存在的能力突然出现。这就是涌现(Emergence)

能力描述例子
上下文学习从提示词中的例子学会做新任务给 3 个例句,就能按格式翻译
思维链推理分步骤推理复杂问题解数学题时一步步推导
指令遵循理解并执行自然语言指令"用三年级学生能听懂的话解释"
多语言能力跨语言迁移知识用中文问,能用英文回答

为什么涌现让人惊讶?

因为这些能力不是被"编程"进去的。没有人告诉 GPT-3 "你应该会思维链推理"。它只是被训练来预测下一个词——但在这个过程中,它"自动"学会了推理。

这就像一个小孩读了足够多的书后,突然能自己分析问题了一样。我们不完全理解为什么——这是当前 AI 研究中最热门的话题之一。

6. 三个常见问题,用大白话回答

Q1: LLM 有意识吗?

没有。它是一台"下一个词预测机"。虽然它的回答看起来像真人在思考,但背后是概率计算,不是意识。它不会"想要"什么,不会"害怕"什么,不会在你不理它的时候感到孤独。

类比:一个计算器能算 12345 × 67890,但不是因为它"会数学"——它只是执行电路运算。LLM 也一样,只不过它处理的是语言。

Q2: LLM 会犯错吗?

会。而且犯得很"自信"。AI 会"幻觉"——编造听起来合理但完全错误的信息。比如它会言之凿凿地告诉你某个历史事件的日期,但那个日期是它"预测"出来的,不是"回忆"出来的。永远核实 AI 给你的关键信息。

Q3: 为什么要用这么多算力?

因为语言比我们想象的复杂得多。理解一句话需要:词的多义性("苹果"是水果还是公司?)、上下文(指代消解)、隐含信息("你吃饭了吗"是问候不是审问)、逻辑关系(因果、转折、递进)……处理这些需要海量参数和计算。

实操练习

  1. 概率实验(5 分钟): 打开任意 AI 聊天工具,输入"今天天气真"然后让 AI 补全。再输入"虽然今天天气真"——观察 AI 的补全有什么不同?为什么"虽然"会改变预测?

  2. 思维链观察(10 分钟): 问 AI 一个需要多步推理的问题,比如"一个水池有一个进水口和一个出水口。进水口单独灌满需要 3 小时,出水口单独放空需要 5 小时。如果两个口同时打开,多久能灌满水池?"第一次直接问答案,第二次在提示词中加上"请一步一步思考"——对比两次回答的差异。

  3. 幻觉检测(10 分钟): 问 AI 一个你知道答案但你确定其信息很冷门的问题(比如你老家某个小景点的情况)。观察 AI 是诚实说不知道,还是编造了听起来合理的内容。

总结

LLM 的工作原理可以概括为三句话:

  1. 预训练让它从海量文本中学到了世界知识
  2. Transformer 的注意力机制让它能理解长距离的语义关系
  3. 指令微调 + RLHF 让它学会了"听懂人话"和"好好说话"

它不是在思考——它是在做极其复杂的概率计算。但恰恰是这种"简单的原理 + 海量的规模",产生了看似智能的行为。

下一课我们将横向对比主流 AI 模型,帮你选出最适合自己的那一款。