入门阅读约 6 分钟· 课时 25分钟

什么是 AI Agent？从聊天到行动的跨越

AI Agent 和 Chatbot 有什么本质区别？为什么说 Agent 是 AI 应用的下一步？这节课用最直观的方式帮你理解 Agent 的核心概念。

AI Agent构建

AI Agent 智能体 Agent架构自动化

课程概述

"ChatGPT 只能聊天，但 AI Agent 能帮你做事。"

从 2025 年开始，"AI Agent"成为了 AI 领域最火的关键词。但到底什么是 Agent？它和聊天 AI 有什么区别？为什么有人叫它"数字员工"？

这门课帮你理解从"跟 AI 聊天"到"让 AI 干活"的关键跨越。不需要技术背景——用日常生活中的类比来理解 Agent 的核心概念。

学习目标

理解 AI Agent 和聊天 AI 的本质区别
了解 Agent 的四个核心能力：感知、规划、行动、记忆
理解"工具调用"是 Agent 最关键的能力
知道当前 Agent 技术的成熟度和局限
建立判断"什么任务适合 Agent"的思维框架

课程内容

1. 一句话理解 Agent——从"问答机"到"执行者"

聊天 AI（ChatGPT 模式）： 你问 → AI 回答 → 你看了 → 你自己去做

AI Agent 模式： 你说"帮我做 X" → Agent 自己规划步骤 → 自己调用工具 → 自己检查结果 → 完成后来找你

一个例子让你直观感受差异：

你是一个项目经理，需要了解项目进度：

用聊天 AI： "帮我写一封邮件问各个负责人进展" → AI 写好邮件 → 你复制到邮箱 → 发送 → 等回复 → 手动整理回复 → "帮我总结这些回复" → AI 总结
用 AI Agent： "帮我收集项目进展，周五前汇总发给我" → Agent 自动发邮件 → 收到回复后自动提取关键信息 → 自动汇总 → 周五自动发给你

Agent 不是"被动回答问题"的，是"主动完成任务"的。

核心公式：Agent = LLM（大脑） + 工具（手） + 规划（策略） + 记忆（经验）

2. Agent 的四个核心能力——用"订机票"理解

假设你让一个 AI Agent "帮我订一张下周三去上海的机票"：

能力 1：感知（Perception）——知道"现在是什么情况"

现在是几号？下周三是什么日期？
你在哪个城市？有哪些机场？
你的历史偏好是什么？（靠窗还是过道？上午还是下午？什么舱位？）

Agent 需要主动获取这些信息，而不是等你告诉它。

能力 2：规划（Planning）——"把大任务拆成小步骤"

订机票的规划可能是：

确认日期、城市、偏好
搜索符合条件的航班
按价格+时间排序，选出前 3 个
展示给你确认
你确认后，填写乘客信息、付款
订完后把行程加到日历

Agent 必须能自己做这个"任务分解"。

能力 3：行动（Action / Tool Use）——"不是说说而已，是真的做"

这是 Agent 和聊天 AI 最大的区别。聊天 AI 只能"说"——Agent 能"做"：

调用航班搜索 API → 获取真实航班数据
填写订票表单 → 真的订票
调用日历 API → 真的添加行程

没有行动能力，Agent 就是"纸上谈兵"。

能力 4：记忆（Memory）——"记住上次你选了靠窗位"

短期记忆：这次对话中你已经告诉它的信息（你的名字、护照号、常旅客号码）
长期记忆：你之前的偏好和历史（上次去上海选了东航、靠窗、不要红眼航班）
知识记忆：这个世界的基本常识（上海有两个机场：虹桥和浦东）

3. 从"聊天 AI"到"Agent"——加了什么？

聊天的 AI 只有一个环节：用户输入 → LLM 思考 → 文本输出。

Agent 的闭环复杂得多：

用户输入："帮我订机票"
  → LLM 理解意图：需要订机票
  → 规划步骤：[查航班, 比价, 展示推荐, 等确认, 订票, 加日历]
  → 执行第1步：调用航班API(日期=下周三, 目的地=上海)
  → 收到API返回：15个航班
  → LLM 分析结果：按价格排序，过滤红眼航班
  → 执行第2步：向用户展示前3个推荐
  → 等待用户反馈："选第二个"
  → 执行第3步：调用订票API(航班号=MU5102, 乘客=你)
  → 收到确认：订票成功，票号XXXXXX
  → 执行第4步：调用日历API(添加行程)
  → 向用户汇报："订好了，行程已同步到日历。"

每一个"→"都是一个决策点。 Agent 需要在这些决策点上判断：继续还是暂停？成功了还是需要重试？需要问你确认还是可以直接执行？

4. Agent 的三种架构——从简单到复杂

类型 1：ReAct（推理+行动循环）——最常用

思路：思考一步，做一步，观察结果，再思考下一步。

这是目前最主流的 Agent 模式。优点是简单稳定，每一步都"看到结果再继续"。缺点是对复杂任务效率较低。

类型 2：Plan-and-Execute（先规划再执行）——适合复杂任务

思路：先做完整计划，再按计划逐步执行。

优点是全局优化——先想清楚再动手。缺点是计划可能跟不上变化——执行到一半发现环境变了，计划要改。

类型 3：Multi-Agent（多 Agent 协作）——适合超复杂任务

思路：多个 Agent 各司其职，像一个团队一样工作。一个做产品经理（拆需求），一个做工程师（写代码），一个做 QA（测试）。

这会在后面的课程专门讲。

5. Agent 的"自主权"——一个重要的分级概念

不是所有 Agent 都应该"全自动"。根据后果的严重程度，Agent 的自主权应该分级：

级别	名称	做什么	例子
L1	建议模式	Agent 给建议，人做决策和执行	"我建议订这个航班，你觉得呢？"
L2	执行+确认	Agent 执行，但关键步骤需要人确认	Agent 填好订票表，你点"确认"
L3	半自动	Agent 自动执行，仅在异常时请示	自动订票，但价格超预算时问你
L4	全自动	Agent 独立完成，事后汇报	自动处理邮件中的会议邀请

关键原则：让 Agent 的自主权和任务的"风险等级"匹配。

6. Agent 目前还不擅长的事——理性期望

Agent 成熟度现状（2025-2026）：

场景	成熟度	说明
信息收集和整理	★★★★	搜索+整理+汇总，基本靠谱
代码编写和部署	★★★☆	简单项目不错，复杂项目需要人
客服问答	★★★☆	标准化问题 OK，复杂问题要转人工
数据分析报告	★★★	出报告快，但计算可能出错
跨系统流程自动化	★★☆	还比较脆弱，容易中断
复杂决策	★☆☆	远不能替代人的判断

三个你不要犯的错误：

不要指望 Agent "一次成功"——它经常需要在失败后重试
不要让 Agent 做你没有能力验证的事——你必须能判断它做得对不对
不要绕过审批流程——Agent 不能替你承担责任

实操练习

场景拆解（10 分钟）： 选一个你日常工作中重复性最高的任务（比如"每天早上查数据并汇总发群"）。按照 Agent 四能力框架（感知+规划+行动+记忆），思考哪些环节可以自动化。
工具盘点（5 分钟）： 列出这个任务中需要调用什么"工具"：需要访问什么系统？需要什么权限？需要什么 API？Agent 没有这些工具的话什么都做不了。
自主权评估（5 分钟）： 对你选择的任务，判断适合哪个自主权级别（L1-L4）。为什么不是 L4？什么情况下会出错？后果有多严重？

总结

AI Agent 是从"问答"到"执行"的跨越。记住四个核心能力——感知、规划、行动、记忆——你就能判断一个 Agent 到底"强不强"。

最重要的是：Agent 不是来替代你的，是来帮你做重复劳动的。 你省下的时间，用来做 Agent 做不了的事——策略、判断、创新、与人连接。