使用 MCP 执行代码:让 Agent 效率提升 98.7% 的实战解析
(2026 年最新趋势,基于 Anthropic 2025 年底发布的 Code Execution with MCP 方案)
2025 年 11 月 Anthropic 官方发布的一项重大优化方案:Code Execution with MCP(模型上下文协议 + 代码执行模式),直接把 AI Agent 在大规模工具连接场景下的 token 消耗从典型 150,000+ 降到 ≈2,000,节省 98.7% 的 token 使用量,同时执行速度提升 60%–80%(视任务复杂度)。
这个数字不是营销噱头,而是真实生产级 benchmark 得出的结论,已被 Cloudflare、多个开源社区、国内大厂(如阿里云、火山引擎)快速跟进和验证。
传统 MCP Agent 的痛点(为什么会烧 15 万 token?)
传统方式(Tool Calling + MCP):
- 启动时一次性把所有 MCP Server 的工具定义(JSON Schema)全塞进上下文 → 几百上千工具 = 几十万 token 光加载工具描述
- 每调用一次工具,结果要完整回传给 LLM → 中间结果反复进出上下文(e.g. 下载 10MB 文件 → 解析 → 上传 → 每步结果都复制一遍)
- 多步任务:每步 tool call 都要 LLM 重新推理 → 上下文爆炸 + 延迟累积
结果:简单任务就几万 token,复杂任务轻松 10–50 万 token,成本 & 延迟双杀。
Code Execution with MCP 的核心思路(革命性翻转)
别让 Agent 直接 call 工具,而是让它写代码去 call 工具!
核心转变:
- MCP Server 不再暴露成 JSON Tool Schema,而是暴露成可执行的代码 API(e.g. TypeScript/Python 函数库)
- Agent(LLM)拿到任务后,生成一段代码(在沙箱中运行)
- 代码里 import MCP 客户端库 → 动态发现/调用需要的工具 → 本地处理数据、过滤、循环、条件判断 → 只把最终结果返回给 LLM
五大核心优势(官方 & 社区验证):
- 渐进式披露(Progressive Disclosure):Agent 先看到文件系统/目录结构,只在需要时 import/读取具体工具定义 → 初始上下文极小
- 数据就地处理:过滤、聚合、循环都在沙箱代码里完成,LLM 只看最终摘要 → 中间结果不进上下文
- 复杂逻辑单步执行:while 循环、if 判断、批量操作一次写完 → 减少多次 LLM 往返
- 隐私 & 安全提升:敏感数据在沙箱处理,不传给模型(e.g. 用户隐私只用 ID 代替)
- 技能持久化:写好的代码片段可存成“技能”,下次直接复用
量化对比(Anthropic 官方示例,15 步工具链任务):
| 模式 | Token 消耗 | 总耗时(约) | 模型推理次数 | 网络往返 |
|---|---|---|---|---|
| 传统 Tool Calling + MCP | 150,000+ | 38 秒 | 15 次 | 15 次 |
| Code Execution with MCP | ≈2,000 | 11.4 秒 | 1–2 次 | 1 次 |
| 提升幅度 | 98.7% ↓ | 70% ↓ | 90%+ ↓ | 93% ↓ |
如何实战落地(2026 年主流实现路径)
- 环境准备
- LLM:Claude 3.5/4 Sonnet、Opus(最强代码能力)或开源 DeepSeek-Coder-V3、Qwen2.5-Coder
- 沙箱:Docker/Jupyter Kernel / E2B / Firecracker / 自建 Python/TS 运行时
- MCP 客户端库:官方 Python/TS SDK(Anthropic、Composio 等提供)
- 典型代码模式(Python 示例,Agent 生成的代码风格)
# Agent 生成并在沙箱执行的代码(简化版)
import mcp_client # MCP 统一客户端库
from pathlib import Path
# 动态发现工具(像浏览文件夹)
tools_dir = Path("/mcp/tools")
available = [f.name for f in tools_dir.glob("*.json") if "salesforce" in f.name.lower()]
# 只加载需要的
client = mcp_client.from_discovery("salesforce-crm") # 按需加载
records = client.get_opportunities(status="closed-won", limit=500)
# 本地过滤 & 聚合(不传回 LLM)
high_value = [r for r in records if r["amount"] > 100000]
total = sum(r["amount"] for r in high_value)
# 只返回最终结果
print(f"高价值成交总额: ${total:,.2f} (共 {len(high_value)} 条)")
- 完整工作流(Agent → 代码 → 沙箱 → 结果)
- 用户问:“分析本季度 Salesforce 高价值成交”
- LLM 生成上面代码片段
- 沙箱执行 → 只把 print 结果或 JSON 摘要返回
- LLM 拿到 200 token 结果 → 直接生成自然语言回答
- 开源/商用落地项目(2026 年热门)
- Anthropic 官方 demo(GitHub anthropic/mcp-code-execution-examples)
- Composio + Claude Skills(已集成 Code Mode)
- E2B + MCP(沙箱专家)
- Cloudflare Code Mode(他们内部实测 94%+ 上下文节省)
- 国内:阿里 TMCP + 代码执行插件、火山引擎 ADG 社区模板
一句话总结:
MCP + Code Execution = 把工具从“静态描述”变成“动态代码 API”,让 LLM 真正发挥“会写代码”的天赋 → token 省 98.7%、速度提 60–80%、可扩展到上千工具。
你现在最想试哪一步?
- 自己搭一个最小沙箱 demo?
- Claude 项目里怎么集成 MCP Code Mode?
- 国内开源模板推荐?
- 跟 Skills / A2A 协议怎么结合?
告诉我你的场景,我可以给你更细的代码模板或部署脚本!