什么是真正的智能体?
2026-05-20
严格意义上的智能体
学界对 Agent 最经典的定义来自 Russell & Norvig 的《人工智能:一种现代方法》——能够通过传感器感知环境、并通过执行器对环境采取行动的实体。这个定义看似宽泛,但要被称为"智能"体,通常要求同时满足四个属性:
自主性 (Autonomy):不需要人类持续干预,自己决定下一步做什么
反应性 (Reactivity):能感知环境变化并及时响应
主动性 (Proactivity):目标导向,会主动采取行动达成目标,而不只是被动等指令
社会性 (Social Ability):能与其他 Agent 或人类交互协作
到了 LLM 时代,严格意义上的智能体有了更具体的技术形态。一个完整的 Agent 至少要包含五个组件:
LLM 作为推理核心(大脑)
规划能力——能把复杂目标拆解成子任务序列
记忆——短期记忆维持上下文,长期记忆跨会话保留信息
工具调用——能够主动选择和使用外部工具
闭环执行——能观察行动结果,根据反馈调整后续行动
这里第五点最关键。Anthropic 在《Building Effective Agents》这篇官方文档里给出了一个非常清晰的区分:
Workflow(工作流):LLM 和工具按照预先写死的代码路径被编排执行。流程是固定的。
Agent(智能体):LLM 自己动态决定流程和工具调用。流程是模型现场决定的。
按这个标准,Dify 上拖拽出来的固定 chain 不是 Agent;而 Claude Code,你说"帮我重构这个项目",它自己决定看哪些文件、怎么改、改完跑什么测试——这才是严格意义上的 Agent。
广泛意义上的智能体
到了产品和市场层面,"智能体"这个词已经被严重稀释了。基本上符合下面任一条件,都能被叫做智能体:
套了一层 system prompt 的 ChatGPT、Claude(比如 GPTs、扣子上的角色 bot)
接入了一两个工具(联网、画图、代码解释器)的对话产品
任何 RPA + LLM 的组合
Dify、扣子、FastGPT 上拖拽出来的工作流
把多个 prompt 串联起来的脚本
国内行业里,"Agent"几乎等同于"AI 应用"。这本身不算错——一个 GPTs 确实勉强满足"自主性"和"反应性"的最低门槛——但如果你按这个标准去判断,你就没法区分一个静态的 FAQ bot 和 Devin、Manus 这种真正在跑长任务的系统。词的颗粒度太粗,就失去了分析价值。
一条更实用的光谱
我建议在课上用这样一条光谱来帮学员定位:
第一层 对话工具:纯 chat,没有工具调用。ChatGPT 3.5 刚出来的形态。不算 Agent。
第二层 增强对话:加了联网、画图、代码解释器,但每次工具调用基本是单步触发。Claude.ai、ChatGPT 现在的默认形态。勉强算"准 Agent"。
第三层 工作流:多步任务,流程由人预先设计好。Dify、n8n、扣子拖出来的东西。本质是 Workflow,不是 Agent。
第四层 真智能体:给一个目标,模型自己决定看什么、做什么、什么时候停。Claude Code、Cursor 的 Agent 模式、Devin、Manus、小龙虾 OpenClaw。这才是严格意义的 Agent。
第五层 多智能体协作:多个 Agent 各司其职、互相调用。MetaGPT、AutoGen、CrewAI。
关键判断点只有一条:"流程是谁决定的?"
流程是人写死的——工作流。流程是模型现场决定的——智能体。
一句话总结
严格意义上,Agent = LLM(大脑) + 规划 + 记忆 + 工具 + 自主闭环,核心特征是"流程由模型动态决定"。
广泛意义上,Agent = 任何带 AI 的、能"做点事"的产品。
教学时用严格定义更扎实,产品宣传时大家用的都是广泛定义——这个落差本身,其实就是一个很好的教学切入点。
发表评论: