什么是真正的智能体？
2026-05-20

严格意义上的智能体

学界对 Agent 最经典的定义来自 Russell & Norvig 的《人工智能：一种现代方法》——能够通过传感器感知环境、并通过执行器对环境采取行动的实体。这个定义看似宽泛，但要被称为"智能"体，通常要求同时满足四个属性：

到了 LLM 时代，严格意义上的智能体有了更具体的技术形态。一个完整的 Agent 至少要包含五个组件：

这里第五点最关键。Anthropic 在《Building Effective Agents》这篇官方文档里给出了一个非常清晰的区分：

按这个标准，Dify 上拖拽出来的固定 chain 不是 Agent；而 Claude Code，你说"帮我重构这个项目"，它自己决定看哪些文件、怎么改、改完跑什么测试——这才是严格意义上的 Agent。

到了产品和市场层面，"智能体"这个词已经被严重稀释了。基本上符合下面任一条件，都能被叫做智能体：

国内行业里，"Agent"几乎等同于"AI 应用"。这本身不算错——一个 GPTs 确实勉强满足"自主性"和"反应性"的最低门槛——但如果你按这个标准去判断，你就没法区分一个静态的 FAQ bot 和 Devin、Manus 这种真正在跑长任务的系统。词的颗粒度太粗，就失去了分析价值。

我建议在课上用这样一条光谱来帮学员定位：

第一层对话工具：纯 chat，没有工具调用。ChatGPT 3.5 刚出来的形态。不算 Agent。

第二层增强对话：加了联网、画图、代码解释器，但每次工具调用基本是单步触发。Claude.ai、ChatGPT 现在的默认形态。勉强算"准 Agent"。

第三层工作流：多步任务，流程由人预先设计好。Dify、n8n、扣子拖出来的东西。本质是 Workflow，不是 Agent。

第四层真智能体：给一个目标，模型自己决定看什么、做什么、什么时候停。Claude Code、Cursor 的 Agent 模式、Devin、Manus、小龙虾 OpenClaw。这才是严格意义的 Agent。

第五层多智能体协作：多个 Agent 各司其职、互相调用。MetaGPT、AutoGen、CrewAI。

关键判断点只有一条："流程是谁决定的？"

流程是人写死的——工作流。流程是模型现场决定的——智能体。

严格意义上，Agent = LLM（大脑） + 规划 + 记忆 + 工具 + 自主闭环，核心特征是"流程由模型动态决定"。

广泛意义上，Agent = 任何带 AI 的、能"做点事"的产品。

教学时用严格定义更扎实，产品宣传时大家用的都是广泛定义——这个落差本身，其实就是一个很好的教学切入点。