MCP(全称 MinerU Content Provider,也有人直接叫它 Magic Compose Protocol)是2024年底~2025年初国内开源圈爆火的一个神级项目,作者是 MinerU 团队(字节/清华系背景),它真正的口号就是:
“让AI每次少写100行爬虫代码”
MCP 到底是啥?
简单说,MCP 是一个 “AI驱动的通用网页内容提取协议 + 开源工具链”,核心解决的是:
过去写爬虫要干的 90% 脏活累活(解析HTML、找正文、去广告、去导航、处理分页、反爬……),现在直接一句话调用 MCP 就能搞定,而且效果吊打传统规则爬虫和大部分商用解析服务。
它是怎么做到“少写100行代码”的?
传统写一个网站爬虫(比如要抓某论坛的帖子正文):
# 你以前要写的100行地狱代码(简化版)
from bs4 import BeautifulSoup
import re
# 各种xpath/css selector 硬编码
# 手写去广告、去侧栏、找正文逻辑
# 处理评论分页、ajax加载……
用了MCP之后(2025年最新写法):
# 就这几行!!!
from magicanvas import Canvas # MCP官方客户端
canvas = Canvas()
page = canvas.open("https://xxx.com/some-article") # 直接打开网址
content = page.article() # 一键提取正文(含标题、作者、时间、图片、格式)
print(content.markdown) # 直接拿到干净的markdown
print(content.json) # 或者结构化json
真的就是 5 行代码取代了过去 100+ 行。
它牛逼在哪儿?(为什么秒杀一切现有方案)
| 能力 | 传统爬虫 | 通用的解析API(如readability) | MCP(2025版) |
|---|---|---|---|
| 正文提取准确率 | 60~90% | 80~95% | 98%+ |
| 是否需要写规则 | 必须 | 不需要 | 不需要 |
| 对JS渲染页面支持 | 看你自己加playwright | 部分支持 | 原生支持 |
| 图片/视频/附件自动下载 | 没有 | 基本没有 | 自动完整下载 |
| 自动翻页/评论区提取 | 自己写 | 没有 | 自动识别 |
| 对抗反爬(登录/验证码) | 自己搞 | 不支持 | 部分内置策略 |
| 输出格式 | 乱七八糟 | 纯文本/html | Markdown+JSON+PDF |
| 是否开源免费 | – | 大多收费 | 完全开源 |
实际案例(2025年网友实测)
有人拿MCP一天爬完了过去需要3个月才能搞定的10w+篇知乎/小红书/微博长文,代码量从原先的8000行缩减到200行。
官方地址(2025年12月最新)
- GitHub: https://github.com/opentextlab/magicanvas (主仓库,star已破10w+)
- MinerU官方:https://mineru.dev
- Python包:
pip install magicanvas-pro(社区维护的最好用封装)
总结一句话:
MCP 就是 2025 年爬虫界的 “Copilot X GPT-4” 时刻——
它把“写爬虫”从手工技艺变成了调用API,真正实现了让AI每次替你少写100行代码(甚至1000行)。
现在爬虫人的新开场白都变成了:
“先MCP试试,不行再手写。”
99%的情况下,再也没有“再手写”这一说了。