无尘阁日记

无尘阁日记

MCP,到底是个什么东西?一篇讲透AI Agent背后的"万能插座"
2026-04-20

MCP,到底是个什么东西?

一篇讲透AI Agent背后的"万能插座"


一、先说痛点:AI很聪明,但被关在屋子里

你可以把现在的AI大模型想象成一个天才顾问——上知天文下知地理,分析能力一流,表达能力也强。但他有一个致命问题:他被关在一间没有窗户的屋子里。

他看不到你的日历,碰不到你的邮箱,连不上你的ERP,更查不了你的客户数据库。你每次跟他合作,都得自己跑出去查资料,抄回来念给他听,他才能帮你干活。

这就是今天大模型的现状——脑子够用,手脚不行。

那怎么让他长出手脚?最直接的办法:给他开几扇门。一扇通向日历,一扇通向邮箱,一扇通向数据库。

但问题来了。

二、老路走不通:每条线都得单独拉

在MCP出现之前,AI要连接外部系统,走的是"专线定制"模式。

Claude想连飞书?写一套对接代码。Claude想连钉钉?再写一套。GPT想连飞书?不好意思,Claude那套用不了,得从头再写。

算一笔账:3个AI模型,4个企业系统,排列组合就是12套对接代码。每加一个AI或者一个系统,所有的连线都要重来一遍。

这在软件工程里叫"笛卡尔积爆炸"。在企业实际场景中,内部系统可能有几十个,这条路根本走不通。

三、MCP登场:AI世界的USB接口

MCP的全称是Model Context Protocol,翻译过来叫"模型上下文协议"。

它的核心思路极其简单:定一个标准。

还记得USB出现之前的电脑吗?打印机一个接口,鼠标一个接口,键盘又一个接口,电脑后面插满了奇形怪状的线。USB出现以后,全部统一了——任何设备,插上就能用。

MCP干的就是同一件事。它对两边各提了一个要求:

AI这边——学会一种标准的"开门方式"(叫MCP Client)。

系统那边——按标准做一扇"门"(叫MCP Server)。

这样一来,3个AI + 4个系统 = 只需要3个Client + 4个Server,总共7条线。再加一个新系统?只加1条线。

从12条减到7条,这只是小场景。企业规模一上来,这个效率差距是指数级的。

四、MCP的五个核心内涵

把MCP拆到底,就是五件事。

第一,它是协议,不是产品

很多人第一反应是"MCP是不是一个软件可以下载"——不是。它是一套规矩,一份合同模板。就像HTTP不是一个网站,而是所有网站都遵守的通信规矩。谁都可以按这套规矩造自己的Server和Client,造出来的东西天然能互相对话。

第二,解耦——把AI和工具彻底拆开

这是MCP最核心的设计哲学。过去AI连系统是"焊死"的,一个萝卜一个坑。MCP在中间插了一层标准协议,AI和系统各自独立演化,互不影响。换个AI?不用改系统。加个系统?不用改AI。这就是"万能转接头"的威力。

第三,能力暴露——让AI自己看菜单点菜

传统集成方式是开发者预先写死"用户说XX就调XX接口"。MCP完全换了一个思路——Server把自己所有能力(工具名、参数、用途说明)全部暴露出来,AI自己读菜单,自己判断该用哪个工具

这意味着你在Server上加一个新工具,不需要改AI那边一行代码。AI下次连上来自动能看到新工具,自己决定什么时候用。决策权在AI,不在硬编码。这才是"智能"的关键。

第四,上下文注入——给AI实时输送弹药

MCP全称里的"Context"不是随便起的。AI本身是个关在屋子里的聪明人,MCP就是那根管道——在AI需要的时候,把日历数据、客户资料、数据库查询结果,实时灌进AI的上下文。AI不是"什么都知道",而是"需要的时候能去拿到"。

第五,生态思维——一次接入,处处可用

MCP真正的战略意图在生态。飞书做了一个MCP Server,那Claude能用、GPT能用、Gemini能用、国产大模型也能用。反过来,一个AI Agent装上MCP Client,市面上所有现成的MCP Server它都能即插即用。

这形成了一个双边网络效应——Server越多,AI越值得支持MCP;支持MCP的AI越多,开发者越愿意做Server。跟当年App Store一个逻辑:苹果不需要自己做所有App,它只要定好标准,生态会自己长出来。

五、Server端:一家标准化的餐厅

理解了MCP是什么,接下来看它的两个主角。先看Server——提供能力的一方。

把Server想成一家餐厅,它做四件事:

1. 挂招牌——"我叫什么,我能干什么"

餐厅开业第一件事——门口挂牌子:"川菜馆·张厨"。AI连上来,第一眼看的就是你的招牌和简介,决定要不要进来、你能帮上什么忙。

2. 亮菜单——"我有哪些菜,每道菜需要什么食材"

菜单上每道菜都写得明明白白:

  • 菜名(工具名)——比如"查员工""算奖金""查公告"

  • 需要什么食材(参数)——比如查员工需要传一个"姓名"

  • 做出来什么样(返回值)——比如返回"部门+职位"

  • 什么口味(功能描述)——比如"根据姓名查询员工的部门和职位信息"

AI拿到这份菜单,就知道什么时候该点哪道菜、怎么告诉厨房自己要什么。

3. 后厨干活——"接单、做菜、出餐"

客人(Client)下了单,后厨做三件事:

验单——参数对不对?该填的填了没?数据类型对不对?

执行——去数据库查、调API发消息、算逻辑……干实际的活儿。

回话——"搞定了,结果是XX"或者"失败了,原因是XX"。

4. 选择开店方式——"实体店还是网店"

Server有两种运行模式:

本地模式(stdio)——AI和Server在同一台电脑上,通过命令行管道对话。就像面对面喊话,快、简单,适合开发调试。

远程模式(SSE/HTTP)——Server部署在云端,AI通过网络连接。就像开了一家网店,适合企业正式部署。

除了工具(Tools),Server还可以暴露两类能力:资源(Resources)——可供AI读取的数据,像图书馆的开架区;提示模板(Prompts)——预设的交互模板,像医院的挂号单,填空就能用。

六、Client端:一位会点菜的顾客

再看Client——发起请求的一方。把它想成一位聪明的顾客,它做五件事:

1. 看菜单——"老板,有什么菜?"

Client连上Server的第一件事就是索要能力清单。Server把所有工具的名字、参数、描述全部列出来,Client看完就心里有数了。

2. 做判断——"我想吃什么"

用户说"帮我查一下张三是哪个部门的"。Client(AI大脑)开始推理:

"用户要查员工信息 → 菜单上有'查员工'这道菜 → 需要填'姓名'→ 用户说了是'张三'→ 齐了,下单!"

这一步是AI自身的智能在发挥作用。MCP提供了菜单,但"看菜单做决策"这个能力是大模型自带的。

3. 写单子——"标准格式点菜"

不能口头随便喊,得按标准格式写单子——用哪个工具、传什么参数,一清二楚。这个标准格式叫JSON-RPC。你不需要知道它长什么样,只要记住:它就是一张"标准点菜单",全世界所有MCP Server都能看懂。

4. 收结果——"菜上来了"

Server执行完毕,按标准格式把结果送回来。比如:"张三,技术部,高级工程师,2019年入职。"Client收到的是原始数据。

5. 说人话——"翻译给用户听"

AI不会直接把原始数据甩给用户,而是组织成自然语言:"张三在技术部,担任高级工程师,2019年入职的。需要了解更多吗?"这一步也是AI自身的能力,MCP不参与。

七、完整流程:从你说话到AI办成事

把所有环节串起来,一次完整的MCP调用是这样的:

→ 对AI说:"帮我查一下张三是哪个部门的。"

AI大脑→ 理解意图:用户要查员工信息。

Client→ 翻菜单:发现飞书Server有"查员工"工具。

Client→ 写点菜单:工具=查员工,参数=张三。

Server→ 接单:收到请求,要查张三。

Server→ 干活:去员工数据库查……找到了!

Server→ 出餐:返回"张三,技术部,高级工程师"。

AI→ 翻译成人话:"张三在技术部,职位是高级工程师。"

→ 看到回复,事儿办成了。

整个过程用户只说了一句话。剩下的全自动——AI判断意图、Client找工具下单、Server干活返回、AI说人话。用户完全感知不到MCP的存在,但它在幕后串起了一切。

八、对企业意味着什么?

把上面的逻辑放到企业场景里,MCP的价值就三句话:

第一句:降低集成成本。 过去每上一个AI应用,就得跟内部系统做一次深度对接。有了MCP,内部系统只要各自做一个MCP Server(按标准包一层壳),任何AI Agent都能即插即用。

第二句:让AI真正进入业务流。 AI光能聊天没用。能查数据、能发消息、能建工单、能调审批——能碰到企业的真实系统,才叫"落地"。MCP就是那根管道。

第三句:技术门槛不高,关键在想清楚。 写一个MCP Server,核心代码量很少。真正的工作量在梳理业务——你企业的哪些能力值得通过这个标准接口暴露给AI?暴露到什么粒度?权限怎么管?这些问题想清楚了,技术实现反而是最简单的环节。

九、一句话收束

MCP的本质就五个字:标准化连接。

它不让AI变得更聪明,它让聪明的AI终于能伸手摸到真实世界。


理解了MCP,你就理解了AI Agent为什么能从"聊天玩具"进化成"干活工具"的底层逻辑。