入门 阅读约 6 分钟· 课时 25分钟

什么是 AI Agent?从聊天到行动的跨越

AI Agent 和 Chatbot 有什么本质区别?为什么说 Agent 是 AI 应用的下一步?这节课用最直观的方式帮你理解 Agent 的核心概念。

什么是 AI Agent?从聊天到行动的跨越

课程概述

"ChatGPT 只能聊天,但 AI Agent 能帮你做事。"

从 2025 年开始,"AI Agent"成为了 AI 领域最火的关键词。但到底什么是 Agent?它和聊天 AI 有什么区别?为什么有人叫它"数字员工"?

这门课帮你理解从"跟 AI 聊天"到"让 AI 干活"的关键跨越。不需要技术背景——用日常生活中的类比来理解 Agent 的核心概念。

学习目标

  • 理解 AI Agent 和聊天 AI 的本质区别
  • 了解 Agent 的四个核心能力:感知、规划、行动、记忆
  • 理解"工具调用"是 Agent 最关键的能力
  • 知道当前 Agent 技术的成熟度和局限
  • 建立判断"什么任务适合 Agent"的思维框架

课程内容

1. 一句话理解 Agent——从"问答机"到"执行者"

聊天 AI(ChatGPT 模式): 你问 → AI 回答 → 你看了 → 你自己去做

AI Agent 模式: 你说"帮我做 X" → Agent 自己规划步骤 → 自己调用工具 → 自己检查结果 → 完成后来找你

一个例子让你直观感受差异:

你是一个项目经理,需要了解项目进度:

  • 用聊天 AI: "帮我写一封邮件问各个负责人进展" → AI 写好邮件 → 你复制到邮箱 → 发送 → 等回复 → 手动整理回复 → "帮我总结这些回复" → AI 总结

  • 用 AI Agent: "帮我收集项目进展,周五前汇总发给我" → Agent 自动发邮件 → 收到回复后自动提取关键信息 → 自动汇总 → 周五自动发给你

Agent 不是"被动回答问题"的,是"主动完成任务"的。

核心公式:Agent = LLM(大脑) + 工具(手) + 规划(策略) + 记忆(经验)

2. Agent 的四个核心能力——用"订机票"理解

假设你让一个 AI Agent "帮我订一张下周三去上海的机票":

能力 1:感知(Perception)——知道"现在是什么情况"

  • 现在是几号?下周三是什么日期?
  • 你在哪个城市?有哪些机场?
  • 你的历史偏好是什么?(靠窗还是过道?上午还是下午?什么舱位?)

Agent 需要主动获取这些信息,而不是等你告诉它。

能力 2:规划(Planning)——"把大任务拆成小步骤"

订机票的规划可能是:

  1. 确认日期、城市、偏好
  2. 搜索符合条件的航班
  3. 按价格+时间排序,选出前 3 个
  4. 展示给你确认
  5. 你确认后,填写乘客信息、付款
  6. 订完后把行程加到日历

Agent 必须能自己做这个"任务分解"。

能力 3:行动(Action / Tool Use)——"不是说说而已,是真的做"

这是 Agent 和聊天 AI 最大的区别。聊天 AI 只能"说"——Agent 能"做":

  • 调用航班搜索 API → 获取真实航班数据
  • 填写订票表单 → 真的订票
  • 调用日历 API → 真的添加行程

没有行动能力,Agent 就是"纸上谈兵"。

能力 4:记忆(Memory)——"记住上次你选了靠窗位"

  • 短期记忆:这次对话中你已经告诉它的信息(你的名字、护照号、常旅客号码)
  • 长期记忆:你之前的偏好和历史(上次去上海选了东航、靠窗、不要红眼航班)
  • 知识记忆:这个世界的基本常识(上海有两个机场:虹桥和浦东)

3. 从"聊天 AI"到"Agent"——加了什么?

聊天的 AI 只有一个环节:用户输入 → LLM 思考 → 文本输出。

Agent 的闭环复杂得多:

用户输入:"帮我订机票"
  → LLM 理解意图:需要订机票
  → 规划步骤:[查航班, 比价, 展示推荐, 等确认, 订票, 加日历]
  → 执行第1步:调用航班API(日期=下周三, 目的地=上海)
  → 收到API返回:15个航班
  → LLM 分析结果:按价格排序,过滤红眼航班
  → 执行第2步:向用户展示前3个推荐
  → 等待用户反馈:"选第二个"
  → 执行第3步:调用订票API(航班号=MU5102, 乘客=你)
  → 收到确认:订票成功,票号XXXXXX
  → 执行第4步:调用日历API(添加行程)
  → 向用户汇报:"订好了,行程已同步到日历。"

每一个"→"都是一个决策点。 Agent 需要在这些决策点上判断:继续还是暂停?成功了还是需要重试?需要问你确认还是可以直接执行?

4. Agent 的三种架构——从简单到复杂

类型 1:ReAct(推理+行动循环)——最常用

思路:思考一步,做一步,观察结果,再思考下一步。

这是目前最主流的 Agent 模式。优点是简单稳定,每一步都"看到结果再继续"。缺点是对复杂任务效率较低。

类型 2:Plan-and-Execute(先规划再执行)——适合复杂任务

思路:先做完整计划,再按计划逐步执行。

优点是全局优化——先想清楚再动手。缺点是计划可能跟不上变化——执行到一半发现环境变了,计划要改。

类型 3:Multi-Agent(多 Agent 协作)——适合超复杂任务

思路:多个 Agent 各司其职,像一个团队一样工作。一个做产品经理(拆需求),一个做工程师(写代码),一个做 QA(测试)。

这会在后面的课程专门讲。

5. Agent 的"自主权"——一个重要的分级概念

不是所有 Agent 都应该"全自动"。根据后果的严重程度,Agent 的自主权应该分级:

级别名称做什么例子
L1建议模式Agent 给建议,人做决策和执行"我建议订这个航班,你觉得呢?"
L2执行+确认Agent 执行,但关键步骤需要人确认Agent 填好订票表,你点"确认"
L3半自动Agent 自动执行,仅在异常时请示自动订票,但价格超预算时问你
L4全自动Agent 独立完成,事后汇报自动处理邮件中的会议邀请

关键原则:让 Agent 的自主权和任务的"风险等级"匹配。

6. Agent 目前还不擅长的事——理性期望

Agent 成熟度现状(2025-2026):

场景成熟度说明
信息收集和整理★★★★搜索+整理+汇总,基本靠谱
代码编写和部署★★★☆简单项目不错,复杂项目需要人
客服问答★★★☆标准化问题 OK,复杂问题要转人工
数据分析报告★★★出报告快,但计算可能出错
跨系统流程自动化★★☆还比较脆弱,容易中断
复杂决策★☆☆远不能替代人的判断

三个你不要犯的错误:

  1. 不要指望 Agent "一次成功"——它经常需要在失败后重试
  2. 不要让 Agent 做你没有能力验证的事——你必须能判断它做得对不对
  3. 不要绕过审批流程——Agent 不能替你承担责任

实操练习

  1. 场景拆解(10 分钟): 选一个你日常工作中重复性最高的任务(比如"每天早上查数据并汇总发群")。按照 Agent 四能力框架(感知+规划+行动+记忆),思考哪些环节可以自动化。

  2. 工具盘点(5 分钟): 列出这个任务中需要调用什么"工具":需要访问什么系统?需要什么权限?需要什么 API?Agent 没有这些工具的话什么都做不了。

  3. 自主权评估(5 分钟): 对你选择的任务,判断适合哪个自主权级别(L1-L4)。为什么不是 L4?什么情况下会出错?后果有多严重?

总结

AI Agent 是从"问答"到"执行"的跨越。记住四个核心能力——感知、规划、行动、记忆——你就能判断一个 Agent 到底"强不强"。

最重要的是:Agent 不是来替代你的,是来帮你做重复劳动的。 你省下的时间,用来做 Agent 做不了的事——策略、判断、创新、与人连接。