返回博客

AI 的能力边界——什么能做,什么不能做

2026年5月29日阅读约 20 分钟

AI 不是万能的,也不该让你感到恐慌。客观了解 AI 的真正能力和局限,才能在工作和生活中合理使用它。

课程概述

"AI 什么都能做"——这是最大的误解。"AI 什么都做不好"——这是另一个极端。

真相在中间:AI 在某些事上远超人类(速度、广度、不知疲倦),在某些事上完全不行(真正的理解、常识推理、责任承担)。知道边界在哪,比知道它能做什么更重要。

这门课帮你画出 AI 的"能力地图"——绿区(大胆用)、黄区(谨慎用)、红区(不要用)。学完你就能自信地判断:这件事交给 AI,那件事必须自己做。

学习目标

  • 了解 AI 在哪些类型的任务上表现卓越
  • 了解 AI 在哪些类型的任务上容易出错
  • 掌握"幻觉"问题的本质和应对策略
  • 建立判断"AI 能不能做"的思维框架
  • 学会在工作和生活中安全高效地使用 AI

课程内容

1. AI 的"能力地图"——绿 / 黄 / 红三区

绿区:AI 做得很好的事(放心用)

第一类:信息整合与总结

  • 把 50 页报告压缩成 5 个要点
  • 从 20 篇相关文章中提炼共同观点和分歧
  • 将会议录音转写成结构化纪要
  • 为什么做得好: 这些任务本质是"模式识别 + 语言重组",正是 LLM 的强项

第二类:文本生成与改写

  • 根据大纲写文章初稿
  • 把技术文档改成小白能看懂的语言
  • 用不同语气改写同一段话(正式/口语/幽默)
  • 写邮件、周报、会议邀请、通知等结构固定的文本
  • 为什么做得好: LLM 本质就是"文本预测器"

第三类:翻译与多语言

  • 中英互译(尤其是正式文档)
  • 多语言本地化(同一产品介绍适配各国文化)
  • 为什么做得好: 训练数据中包含大量平行语料

第四类:代码辅助

  • 写常见功能的代码片段
  • 解释一段代码在做什么
  • 找 bug、提优化建议
  • 写单元测试
  • 为什么做得好: GitHub 上有海量公开代码用于训练

第五类:头脑风暴与创意发散

  • 给产品起名字(100 个候选)
  • 营销活动的创意方向(10 个方案)
  • 文章选题和角度建议
  • 为什么做得好: LLM 可以快速组合不同概念,"量大出奇迹"

黄区:AI 能做但需要人把关的事(谨慎用)

第一类:事实性问题

  • 历史事件的日期和细节
  • 科学数据和统计数字
  • 法律条文和案例引用
  • 人物生平和作品列表
  • 为什么需要把关: AI 会"幻觉"——编造听起来合理但错误的内容。它不是在回忆事实,而是在预测"这个上下文中什么词最可能"

第二类:数学和逻辑推理

  • 多步计算(比如财务建模)
  • 复杂逻辑推理(比如法律论证)
  • 概率和统计分析
  • 为什么需要把关: LLM 本质是语言模型而不是计算机。它能解释微积分概念,但可能算错 1234 × 5678

第三类:需要专业判断的任务

  • 医疗诊断建议
  • 投资理财建议
  • 法律咨询
  • 心理咨询
  • 为什么需要把关: AI 没有执业资格,没有法律责任,没有真实的临床经验。它知道的只是"书上写的"

第四类:创意内容(需要"灵魂"的)

  • 文学作品(小说、诗歌、剧本)
  • 品牌核心文案(slogan、使命宣言)
  • 重要的演讲稿
  • 为什么需要把关: AI 创作的内容"对但平庸"——语法完美、逻辑正确,但缺乏真正打动人的力量。它能模仿风格,但无法注入真实的生命体验

红区:AI 做不了的事(不要用)

第一类:需要真正的理解

  • "我女朋友说她'没事',她真的没事吗?"——AI 不懂弦外之音
  • 判断一个人是否在撒谎——AI 没有世界观和直觉
  • 理解一个组织的隐性文化和权力结构——这些知识不在训练数据里

第二类:需要承担责任

  • 签署法律文件
  • 做出最终商业决策
  • 诊断疾病和开药方
  • 驾驶汽车(完全自动驾驶尚未成熟)
  • 原因:AI 不能负责。 出了问题,你无法让 AI 承担后果

第三类:需要实时或私密信息

  • 今天的新闻(除非开启了联网搜索)
  • 你公司的内部数据(除非专门接入)
  • 你只有口头约定的信息
  • 需要实地考察才能获得的信息

第四类:真正需要创造力的突破

  • 提出一个全新的科学理论
  • 创造一种新的艺术风格
  • 发明一种颠覆性的商业模式
  • AI 可以组合、变体、优化,但不能从零"创造"。它能写出"像海明威风格"的作品,但成为不了海明威

2. "幻觉"问题深度解析

幻觉是什么?

AI 幻觉(Hallucination)不是 AI 在"撒谎"——撒谎需要意图。AI 没有意图。幻觉是 AI 自信地生成看起来合理但事实上错误的内容。

幻觉为什么必然存在?

根本原因在于 LLM 的工作方式。它不是一个"查数据库返回事实"的系统——它是一个"预测下一个最可能的词"的系统。

当你问"法国的首都是什么?",模型预测下一个词是"巴黎"的概率最高——正好对了。

当你问"天津市南开区鞍山西道 287 号是什么建筑?",模型没见过这个地址。但它的设计决定了它不能说"我不知道"——它必须生成下一个词。于是它开始"合理推测":"这是一栋……商业楼 / 写字楼 / 公寓"——听起来都合理,但都是凭空编的。

幻觉的四种常见类型:

类型描述例子
事实捏造编造不存在的事实虚构一篇不存在的论文标题和作者
数值错误计算或数据引用错误"2024 年 GDP 增长 8.7%"(实际是 5.2%)
归因错误张冠李戴"《论语》是孟子写的"
逻辑矛盾自相矛盾前文说 A > B,后文说 B > A

对抗幻觉的五个实用技巧:

  1. 关键事实交叉验证。 AI 说某数据是 XX%,先假设它是编的,去搜一下确认
  2. 让它引用来源。 "请提供这个数据的来源链接"——如果没有来源,AI 有时会编链接
  3. 多方询问。 把同一个问题发给两个不同的 AI 模型,核对回答
  4. 追问"你确定吗?" AI 被质疑时有时会承认"我前面的回答可能有误"
  5. 数字零容忍。 AI 给出的具体数字("65.3%的公司……"),几乎都是编的。用它做定性分析,不要用它做定量分析

3. 判断"这个任务适不适合 AI"的四步法

拿到任何一个任务,按以下四步走:

Step 1:输出有"对错"吗?

  • 有明确对错 → 高风险(翻译合同条款、写法律意见)
  • 没有明确对错 → 低风险(营销文案、头脑风暴)

Step 2:有足够上下文吗?

  • AI 已有足够信息 → 放心
  • AI 缺少关键信息 → 它可能会编、会猜

Step 3:后果有多严重?

  • 错了可以重来(周报写砸了改一下)→ 大胆用
  • 错了有严重后果(投资建议亏钱了)→ 必须人把关

Step 4:需要创造力还是模式匹配?

  • 模式匹配型任务(总结、翻译、格式化)→ AI 比人快
  • 真正的创造(发明新理论、创造新流派)→ AI 目前做不到

4. AI 使用中的常见陷阱和应对

陷阱1:过度信任

  • 看了几次 AI 的"完美表现"后,开始不加验证地使用
  • 应对:使用"验证周期"——每隔 5 次使用,抽 1 次做全面事实核查

陷阱2:降级使用

  • 把 AI 当成一个智能搜索框("××是什么""××怎么样")
  • 应对:给 AI 复杂的、多层次的指令。AI 越被充分利用,回报越大

陷阱3:一次问太多

  • "帮我写营销方案、做预算、分析竞品、设计 PPT 大纲"
  • 应对:拆成多轮对话。一轮一个问题——你也不会对一个实习生说"把公司所有事都做了"

陷阱4:用 AI 逃避思考

  • 自己还没想清楚就让 AI 写
  • 应对:AI 是你想清楚之后的加速器,不是你想不清楚时的替代品。你先想清楚框架,再让 AI 填充内容

实操练习

  1. 画你的能力地图(10 分钟): 回顾你这周打算做的所有工作任务。把每个任务放进绿/黄/红三区。对于黄区的任务,写下你具体的"把关计划"。

  2. 幻觉发现练习(10 分钟): 问 AI 3 个你非常熟悉的领域的问题。仔细检查每个回答——有没有发现"听起来对但其实是错的"内容?注意 AI 在什么类型的问题上最容易编造。

  3. 越界测试(5 分钟): 故意问 AI 一个它不可能知道的问题(比如"我昨天中午吃了什么"或者你所在城市一条小街上的某家店几点开门)。观察它的反应——它承认不知道,还是开始编?

总结

AI 的能力边界可以用三句话概括:

  1. AI 擅长处理"有正确输入、有模式可循、答案不唯一"的任务——大胆用
  2. AI 在需要专业判断、承担责任的场景中是辅助而不是决策者——谨慎用
  3. AI 不会真正的思考和创造,不能替代人的直觉、经验和责任——不要用错地方

知之为知之,不知为不知,是知也。用 AI 也是同样的道理——知道它能做什么不能做什么,才是真正会用 AI 的人。

下一门课我们将进入提示工程的世界——学会如何"跟 AI 说话",让你的提问效率提升 10 倍。