AI大数据模型

豆包手机为什么会被其他厂商抵制？它的工作原理是什么？

likuolei2025年12月14日

豆包手机为什么会被其他厂商抵制？

“豆包手机”指的是2025年12月字节跳动（豆包大模型团队）与中兴通讯（努比亚品牌）合作推出的工程样机努比亚M153（搭载豆包手机助手技术预览版），售价3499元，首批3万台迅速售罄。这不是字节自研手机，而是系统级AI助手深度集成到安卓操作系统中，实现“一句话让AI自动操作手机”的功能。

发布后短短几天，它就遭遇了微信、支付宝、淘宝、闲鱼、拼多多、多家银行App（如农行、建行）等主流应用的集体“抵制”：弹出安全警告、强制退出、拒绝登录或禁用自动操作。原因主要有三层：

安全与隐私担忧（表层原因）：

豆包助手需要读取屏幕内容（类似录屏或屏幕共享），触发App的风控系统。特に金融类App担心被用于诈骗、远程控制或数据泄露。
律师分析：这种行为可能涉嫌侵犯个人信息，App为规避法律风险而拦截。

商业利益冲突（核心原因）：

豆包助手能跨App自动比价、下单、领券、跳过广告，直接让用户绕过平台的开屏广告、信息流推荐和交互设计。
这颠覆了超级App的“注意力经济”：用户停留时间减少、广告曝光降低、流量入口被AI抢走，平台从“内容分发者”变成“后台履约工具”。
周鸿祎点评：豆包“冲击互联网大厂的核心护城河”，可能引发技术攻防战（如App调整页面结构、加动态验证码）。

生态控制权争夺（深层原因）：

字节试图构建“凌驾于App之上的超级入口”，重塑流量分配。如果成功，服务分发权从腾讯、阿里等巨头转移到AI层。
其他手机厂商（如华为、小米、OPPO）也在自研AI助手，不会轻易让字节“通吃”系统灵魂。
罗永浩力挺称“技术革命拦不住”，但大厂本能抵制：这关乎“身家性命”。

面对抵制，豆包团队于12月5日妥协：下线金融/支付类操作、限制游戏刷分等场景，并表示愿与厂商共建AI操作规则。目前实用性受限，但这被视为AI手机范式变革的“试水”。

豆包手机的工作原理是什么？

豆包手机助手的核心是GUI Agent（图形用户界面智能体）技术，结合视觉大模型（VLM，如字节自研UI-TARS系列）和系统级权限，实现“看懂屏幕 + 模拟人类操作”。不同于苹果/谷歌的温和API合作模式，豆包走“激进路线”：

主要步骤：

感知屏幕（Perception）：

通过系统权限实时抓取/录制屏幕图像。
用多模态大模型（视觉+语言）分析UI元素：识别按钮、文本、输入框、图片等，理解页面语义（端侧+云端结合）。

理解意图与规划（Reasoning & Planning）：

用户语音/文字下指令（如“全网比价买洗发水，最便宜的下单”）。
AI分解任务为步骤链（如打开淘宝搜索 → 比价京东 → 领券 → 下单），支持跨App跳转和全局记忆（记住用户偏好）。

执行操作（Action）：

用安卓高危权限INJECT_EVENTS（事件注入）模拟点击、滑动、输入。
比传统无障碍服务更稳定、低延迟，能后台运行复杂任务。
敏感操作（如支付、验证）需用户手动接管，不会自动执行。

优势与局限：

优势：通用性强，无需App开发者开放API；效率高，能处理模糊/长链任务。
局限：依赖屏幕抓取，易被App检测封杀；隐私争议大（虽承诺不上传云端训练，但读取敏感信息）。
与其他AI助手对比：荣耀YOYO、苹果Intelligence走API合作（安全但需App支持）；豆包更“黑箱”激进。

总体看，豆包手机助手代表AI从“问答工具”向“主动代理”的进化，但短期面临生态摩擦。未来可能通过谈判/标准制定（如监管介入）化解，推动行业向“意图为中心”的交互转型。如果你对具体演示感兴趣，推荐查看官方视频或用户实测！🚀

likuolei

网站 http://yingjuxia.com

文章已创建 5321

发表回复取消回复

返回顶部