入门篇 | 人工智能发展史 – 第10讲
从 MCP 协议到 AI Agent:从静态知识到动态智能,智能体的全面演进之路
这一讲的主题跨越了大约 1970 年代到 2025–2026 年的半个多世纪,但核心线索非常清晰:
从「人类把知识写进机器」
→ 到「机器自己学会知识」
→ 再到「机器能带着目标主动做事」
我们把这条线拆成五个主要阶段来看。
阶段划分时间轴(简明版)
| 阶段 | 时间段 | 核心关键词 | 代表性系统/技术 | 本质特征 | 是否算“Agent” |
|---|---|---|---|---|---|
| 1 | 1970s–1980s | 专家系统、知识工程 | MYCIN、DENDRAL、XCON | 人类手写规则 + 静态知识库 | 否 |
| 2 | 晚1980s–1990s | 规划、反应式 Agent | SHRDLU、 subsumption architecture、Soar | 符号规划 + 简单反应 | 弱 Agent |
| 3 | 2000s–2010s | BDI、强化学习 Agent | BDI 模型、Deep RL(Atari、AlphaGo) | 信念-愿望-意图 + 试错学习 | 中等 Agent |
| 4 | 2017–2022 | 大语言模型 + 工具调用 | GPT-3 + Function Calling、ReAct | 语言理解 + 单步工具调用 | 工具型 Agent |
| 5 | 2023–2026 | 推理 + 多步自主 + 长程记忆 | o1/o3、Claude 3/4、DeepSeek Agent、Grok Agent | 自主目标拆解 + 长期规划 + 自我反思 | 现代 AI Agent |
一、起点:1970s–1980s 的“知识就是力量”时代
最早被广泛认可的“智能体”雏形,其实是专家系统。
代表作:
- MYCIN(1976)→ 诊断血液感染,开出抗生素处方
- DENDRAL(1965–1970s)→ 质谱分析推测分子结构
- XCON / R1(1980s)→ DEC 公司用来配置 VAX 计算机订单,节省了上千万美元
当时的核心思想是:
人类把领域知识一条条写成 IF-THEN 规则,机器负责根据输入匹配规则并推理。
MCP 协议(这里指的不是 Minecraft 的 MCP,而是早期 AI 中常被提及的“Meta-level Control Protocol”或更广义的“知识控制协议”思想)实际上代表了那个时代最典型的控制策略:
用元规则(meta-rules)来决定先执行哪条规则、如何冲突消解
这一阶段的系统被称为“知识密集型”,但本质是静态的、被动的。它们不知道自己要完成什么目标,也不会主动发起行动,更不会从失败中学习。
二、从“静态规则”到“主动规划”——1980s 末到 1990s
这个时期出现了真正意义上的“Agent”概念。
关键里程碑:
- ** subsumption architecture**(Rodney Brooks,1986)
- 提出“无模型、无规划、行为主义”机器人
- 层层行为模块互相抑制/激活(反射式)
- 代表:Genghis、Roomba 扫地机器人祖先
- BDI 模型(Bratman、Rao & Georgeff,1987–1990s)
- Belief(信念)- Desire(愿望)- Intention(意图)
- 第一次系统性地把“目标”“承诺”“计划”写进计算模型
- 后来成为 Agent 理论最主流框架之一
- Soar(Laird、Newell、Rosenbloom,1983–持续至今)
- 认知架构,试图统一所有认知活动
- 引入了块(chunking)学习机制(类似现在的元学习雏形)
这一阶段的核心转变是:
从「人类把答案写进去」
→ 到「人类把目标和约束写进去,让机器自己找路径」
三、2010s:深度学习让 Agent 第一次“自己学会做事”
2012–2015 年深度强化学习(Deep RL)爆发:
- DQN(2013–2015)→ 在 Atari 游戏上超越人类
- AlphaGo(2016)→ 击败李世乭
- AlphaZero(2017)→ 从零自学围棋、象棋、将棋
这些系统第一次实现了:
没有人类手写规则,仅靠自我博弈 + 奖励信号,就学会了极其复杂的行为策略
但它们仍然是单任务、封闭环境的 Agent。
四、2020–2022:大语言模型让 Agent 第一次“能听懂人类目标”
2022 年底–2023 年初是关键拐点:
- ChatGPT(2022.11)→ 让普通人第一次感受到“语言就是编程语言”
- ReAct 论文(2022)→ Reasoning and Acting,把思考和行动写进 Prompt
- Toolformer(2023)→ 让语言模型自己学会调用工具
- AutoGPT / BabyAGI(2023.3–4)→ 第一次让大家看到“给个目标,它自己拆任务、自己执行”的震撼
五、2023–2026:推理 + 工具 + 记忆 + 反思 → 现代 AI Agent 成型
关键技术突破按时间排序:
- 2023:Function Calling 成为标配(OpenAI、Anthropic、Google)
- 2024:LangGraph / CrewAI / AutoGen 等框架成熟
- 2025:o1 系列开启“推理就是计算”范式
- 2025–2026:长期记忆 + 自我反思 + 多 Agent 协作 成为生产级标配
2026 年典型生产级 Agent 架构(最常见组合):
用户目标
↓
[Planner / o1-style Reasoner] → 拆解任务树
↓
[Memory Module] ←→ [Long-term / Short-term / Episodic Memory]
↓
[Tool Router] → 选择/调用工具(API、浏览器、代码执行、RAG、其他 Agent)
↓
[Executor] → 执行动作
↓
[Observer / Reflector] → 观察结果 → 判断成功/失败 → 反思/修正
↓ 循环
六、2026 年最值得关注的 5 个方向(值得收藏)
- 推理时计算规模化(Inference-time scaling)
o1/o3 式“思考越久越聪明”已成为主流 - 多 Agent 协作框架成熟
AutoGen、MetaGPT、ChatDev、CAMEL 等已能跑完整软件公司模拟 - 记忆架构标准化
Mem0、Zep、LangMem 等专业记忆层开始大规模商用 - 开源 Agent 性价比逆袭
DeepSeek-R1、Qwen-Agent、Yi-Agent 等已能在很多场景接近甚至超过闭源 - Agent + 具身 / 机器人结合
Figure 02、1X、Agility、Boston Dynamics + LLM 的结合正在加速
一句话总结这条演进主线:
从人类把知识写进机器
到机器自己学会知识
再到机器带着目标主动做事
再到机器自己反思、纠错、迭代、协作做事
—— 这就是 AI Agent 五十多年的演化之路
如果你想马上动手做第一个 Agent,推荐路径是:
最快路径 → 用 OpenAI Assistants API 或 Claude Projects 做一个“带文件 + 工具”的简历优化/竞品分析 Agent
进阶路径 → 用 LangGraph + DeepSeek/Qwen + Mem0 搭建一个带记忆的自主任务 Agent
想直接开做哪个场景?
(写周报 / 做竞品分析 / 管理日程 / 写代码 / 私人研究员 ……)
告诉我你的第一个 Agent 想解决什么问题,我可以给你最短路径的架构图 + Prompt + 代码框架。