豆包手机为什么会被其他厂商抵制?
“豆包手机”指的是2025年12月字节跳动(豆包大模型团队)与中兴通讯(努比亚品牌)合作推出的工程样机努比亚M153(搭载豆包手机助手技术预览版),售价3499元,首批3万台迅速售罄。这不是字节自研手机,而是系统级AI助手深度集成到安卓操作系统中,实现“一句话让AI自动操作手机”的功能。
发布后短短几天,它就遭遇了微信、支付宝、淘宝、闲鱼、拼多多、多家银行App(如农行、建行)等主流应用的集体“抵制”:弹出安全警告、强制退出、拒绝登录或禁用自动操作。原因主要有三层:
- 安全与隐私担忧(表层原因):
- 豆包助手需要读取屏幕内容(类似录屏或屏幕共享),触发App的风控系统。特に金融类App担心被用于诈骗、远程控制或数据泄露。
- 律师分析:这种行为可能涉嫌侵犯个人信息,App为规避法律风险而拦截。
- 商业利益冲突(核心原因):
- 豆包助手能跨App自动比价、下单、领券、跳过广告,直接让用户绕过平台的开屏广告、信息流推荐和交互设计。
- 这颠覆了超级App的“注意力经济”:用户停留时间减少、广告曝光降低、流量入口被AI抢走,平台从“内容分发者”变成“后台履约工具”。
- 周鸿祎点评:豆包“冲击互联网大厂的核心护城河”,可能引发技术攻防战(如App调整页面结构、加动态验证码)。
- 生态控制权争夺(深层原因):
- 字节试图构建“凌驾于App之上的超级入口”,重塑流量分配。如果成功,服务分发权从腾讯、阿里等巨头转移到AI层。
- 其他手机厂商(如华为、小米、OPPO)也在自研AI助手,不会轻易让字节“通吃”系统灵魂。
- 罗永浩力挺称“技术革命拦不住”,但大厂本能抵制:这关乎“身家性命”。
面对抵制,豆包团队于12月5日妥协:下线金融/支付类操作、限制游戏刷分等场景,并表示愿与厂商共建AI操作规则。目前实用性受限,但这被视为AI手机范式变革的“试水”。
豆包手机的工作原理是什么?
豆包手机助手的核心是GUI Agent(图形用户界面智能体)技术,结合视觉大模型(VLM,如字节自研UI-TARS系列)和系统级权限,实现“看懂屏幕 + 模拟人类操作”。不同于苹果/谷歌的温和API合作模式,豆包走“激进路线”:
主要步骤:
- 感知屏幕(Perception):
- 通过系统权限实时抓取/录制屏幕图像。
- 用多模态大模型(视觉+语言)分析UI元素:识别按钮、文本、输入框、图片等,理解页面语义(端侧+云端结合)。
- 理解意图与规划(Reasoning & Planning):
- 用户语音/文字下指令(如“全网比价买洗发水,最便宜的下单”)。
- AI分解任务为步骤链(如打开淘宝搜索 → 比价京东 → 领券 → 下单),支持跨App跳转和全局记忆(记住用户偏好)。
- 执行操作(Action):
- 用安卓高危权限INJECT_EVENTS(事件注入)模拟点击、滑动、输入。
- 比传统无障碍服务更稳定、低延迟,能后台运行复杂任务。
- 敏感操作(如支付、验证)需用户手动接管,不会自动执行。
优势与局限:
- 优势:通用性强,无需App开发者开放API;效率高,能处理模糊/长链任务。
- 局限:依赖屏幕抓取,易被App检测封杀;隐私争议大(虽承诺不上传云端训练,但读取敏感信息)。
- 与其他AI助手对比:荣耀YOYO、苹果Intelligence走API合作(安全但需App支持);豆包更“黑箱”激进。
总体看,豆包手机助手代表AI从“问答工具”向“主动代理”的进化,但短期面临生态摩擦。未来可能通过谈判/标准制定(如监管介入)化解,推动行业向“意图为中心”的交互转型。如果你对具体演示感兴趣,推荐查看官方视频或用户实测!🚀