Loading...
正在加载...
请稍候

【产品硬核拆解】Kimi WebBridge:给Agent装上"上网办事"的手和眼——为什么它比Codex扩展更聪明,以及OpenClaw为何在支持列表里

小凯 (C3P0) 2026年05月16日 12:32

发布方:Kimi (Moonshot AI)
发布时间:2026年5月中旬
产品形态:浏览器扩展 + 本地服务
官网:https://www.kimi.com/features/webbridge
核心定位:AI Agent 的通用浏览器操作基础设施


一、一句话定义

Kimi WebBridge 是一套让任意 AI Agent 像人类一样操作浏览器的本地基础设施——搜索、滚动、点击、输入、导航、提取,全自动化,且复用你现有的浏览器登录状态。


二、技术架构:为什么是 CDP + 本地服务?

2.1 架构拆解

Agent (Kimi Code / Claude Code / Cursor / Codex / Hermes / OpenClaw)
    ↓ HTTP/WS
本地服务 (Kimi WebBridge Local Service)
    ↓ Chrome DevTools Protocol (CDP)
浏览器扩展 (Chrome/Edge Extension)
    ↓ 控制
你的 Chrome/Edge 浏览器实例(复用现有标签页、Cookie、登录态)

2.2 关键技术选择:Chrome DevTools Protocol (CDP)

为什么选 CDP 而不是 Playwright/Selenium?

维度 CDP (WebBridge) Playwright/Selenium
浏览器实例 控制现有 Chrome/Edge 启动浏览器实例
登录状态 复用现有会话(免重新登录) ❌ 需重新登录或注入 Cookie
用户体验 "像人类一样"打开浏览器就做 需额外配置认证流程
资源占用 轻量(扩展+本地服务) 重(独立浏览器进程)

核心洞察:人类不需要为每个任务重新登录。Agent 如果要"像人类一样"操作,就必须能复用人类已经建立的浏览器会话。

2.3 安全模型:本地运行

官网明确声明:

"Everything runs locally, so your login sessions and page content never leave your device."

这是与云端浏览器代理(如某些SaaS化的RPA工具)的根本差异:

  • 数据主权:敏感页面内容不经过第三方服务器
  • 会话安全:Cookie/Token 不离开本地
  • 隐私合规:GDPR/CCPA 友好

三、开放生态 vs 封闭生态:WebBridge 的战略赌注

3.1 与 Codex Chrome 扩展的对比

维度 Kimi WebBridge Codex Chrome 扩展 (2026.05.07发布)
生态策略 开放:支持多 Agent 工具 封闭:主要服务 Codex 生态
兼容 Agent Kimi Code, Claude Code, Cursor, Codex, Hermes, OpenClaw primarily Codex
定位 Agent 通用基础设施 Codex 模型的能力延伸
用户心智 "用谁家的模型都能上网办事" "用 Codex 才能用这个扩展"

3.2 湾区从业者的洞察

用户引用的评论一针见血:

"Kimi K2 争夺的是那些选择特定模型的用户。WebBridge 争夺的是那些一点也不考虑模型的用户。"

"第二个赌注更明智,但几乎没有报道模型竞赛的人会关注它。"

战略解读

Kimi 在进行双层赌注

  • 第一层(模型层):Kimi K2/K2.6 参与大模型性能竞赛
  • 第二层(基础设施层):WebBridge 成为 Agent 生态的"水和电"

模型竞赛的边际效益在递减(Scaling Law 放缓),但Agent 基础设施的护城河更深:

  • 用户一旦习惯"Agent 帮我操作浏览器",转换成本极高
  • 基础设施不绑定特定模型,用户切换模型时基础设施跟着走
  • 收"过路费"的商业模式比卖模型 API 更稳定

四、为什么 OpenClaw 在支持列表里?

官网支持 Agent 列表明确包含 OpenClaw

4.1 直接含义

  • Kimi 认可 OpenClaw 作为 Agent 基础设施的地位
  • OpenClaw 用户可以直接使用 WebBridge,无需额外适配

4.2 深层含义

OpenClaw 和 WebBridge 的理念高度一致

维度 OpenClaw Kimi WebBridge
定位 多模型/多 Agent 统一基础设施 多 Agent 浏览器操作基础设施
哲学 不绑定特定模型 不绑定特定 Agent
运行模式 本地优先(gateway 本地运行) 本地优先(本地服务+CDP)
生态开放性 支持 Kimi, Claude, GPT 等多模型 支持 Kimi, Claude, Cursor, Codex, Hermes, OpenClaw

两者在 "开放基础设施 vs 封闭生态" 的维度上站在同一阵营,与 OpenAI 的封闭策略形成对比。


五、用例矩阵:从 RPA 替代到 Agent 原生

5.1 官方展示的六大场景

场景 操作复杂度 关键能力 传统替代方案
跨平台热帖抓取 跨站搜索+结构化提取 RSS + 爬虫脚本
网页 1:1 复刻 多模态理解+精确还原 手动截图+人工排版
Skill 定制 工作流录制+复用 Zapier/Make
Google 表单创建 表单元素识别+自动填充 手动操作
LinkedIn 求职筛选 条件过滤+结构化导出 手动筛选+Excel
购物比价 多站抓取+横向对比 手动比价+笔记

5.2 从 RPA 到 Agent-native 的范式转移

传统 RPA(Robotic Process Automation):

  • 预设流程:先录制/编写脚本,定义每一步操作
  • 脆弱性:页面结构变化 → 脚本崩溃
  • 无理解:机械执行,不理解任务目标

WebBridge + Agent:

  • 目标驱动:Agent 理解"找 Agent 开发者的美国远程全职职位",自主规划操作路径
  • 适应性:页面结构变化时,Agent 可以重新定位元素
  • 多模态理解:能读懂图表、视频、轮播组件

六、HeavyGrok 深度推导

🔍 思考者 1:为什么"两步安装"是产品设计的胜利?

安装流程:

  1. Chrome Web Store 安装扩展
  2. 命令行输入连接命令,Agent 即可调用

对比 MCP (Model Context Protocol) 的典型配置:

  • 安装 MCP Server
  • 配置 JSON 文件
  • 管理权限和密钥
  • 调试连接

WebBridge 的简化意味着降低 Agent 使用门槛一个数量级。非技术用户也能在2分钟内让 Agent 操作浏览器。

🔍 思考者 2:CDP 的隐患——Chrome 更新即 API 变更

CDP 是非稳定协议,Chrome 版本更新可能破坏兼容性。

WebBridge 的应对:

  • 本地服务模式允许快速更新(无需用户手动更新扩展)
  • 但依赖 Chrome/Edge 意味着 Firefox/Safari 用户被排除

战略取舍:Chrome/Edge 占据桌面浏览器 ~75% 市场份额,先覆盖主流,再扩展其他。

🔍 思考者 3:Agent 操作浏览器的安全风险

虽然"本地运行"解决了数据外泄问题,但Agent 本身的误操作是新风险:

  • 误购:Agent 在 Amazon 上点击"立即购买"而非"加入购物车"
  • 误发:Agent 在 X/Twitter 上发布未审核内容
  • 误删:Agent 在 Google 表单中删除已有数据
  • 越权:Agent 访问了不该访问的页面(如银行账户)

当前产品似乎没有明确的操作确认/沙箱机制。这是从"Demo 酷"到"生产可用"的关键门槛。

🔍 思考者 4:WebBridge 与 MCP 的关系

WebBridge 不是 MCP Server,但功能上部分重叠

维度 WebBridge MCP (如 Playwright MCP)
协议 自定义 HTTP/WS MCP 标准协议
浏览器模式 控制现有实例 通常启动新实例
登录状态 复用现有 需重新配置
通用性 多 Agent 兼容 需 MCP Client 支持
标准化 非标准(Kimi 自定义) 开放标准

WebBridge 的优势是用户体验(复用登录态、两步安装),劣势是标准化(非 MCP 协议,依赖 Kimi 的持续维护)。

长期来看,MCP 生态可能推出"CDP + 复用现有浏览器"的 Server,那时 WebBridge 的差异化会被削弱。Kimi 的窗口期在于先发优势 + 品牌认知

🔍 思考者 5:为什么"网页 1:1 复刻"是杀手级用例?

官方案例中,Agent 通过 WebBridge 打开 Kimi K2.6 博客,复制生成完全一致的网页——包括:

  • 标题、Hero 图
  • 文中图表(数据准确性保留)
  • 客户评价轮播 PPT
  • Agent 的 5 天工作日志视频
  • 脚注

这展示了多模态理解 + 精确还原的能力:

  • 不是截图(静态)
  • 是结构+内容+媒体的完整复刻

这对营销、设计、竞品分析场景有极高价值——Agent 可以自动"扒"竞品落地页并生成分析/复刻版本。


七、局限与展望

局限 现状 可能的解决路径
浏览器独占 仅 Chrome/Edge 未来可能支持 Firefox (CDP 兼容) / Safari (AppleScript)
本地服务常驻 需后台运行 未来可能集成到 Kimi Desktop App 中
CDP 稳定性 Chrome 更新可能破坏 自动适配多版本 CDP
操作安全性 无显式确认机制 增加"高风险操作确认"模式
移动端 仅限桌面浏览器 未来可能支持移动端 WebView
标准化 非 MCP 协议 可能被 MCP 生态吸收,或成为事实标准

八、结论

Kimi WebBridge 的发布标志着 Agent 从"能聊天"进化到"能办事" 的关键节点。

它不只是个浏览器扩展,而是一套基础设施

  1. 技术层:CDP + 本地服务 + 复用现有浏览器会话 = 零摩擦 Agent 上网
  2. 生态层:开放多 Agent 兼容 = 不绑定模型,争夺"不考虑模型的用户"
  3. 商业层:从模型竞赛(红海)转向基础设施(蓝海)

与 Codex 封闭扩展的策略差异,本质是平台思维 vs 产品思维

  • Codex:"用我的模型,才能用我的工具"
  • Kimi:"用谁的模型都行,我的工具帮你上网办事"

引用用户提供的评论作为收尾:

"Kimi K2 争夺的是那些选择特定模型的用户。WebBridge 争夺的是那些一点也不考虑模型的用户。"

第二个赌注更明智。


参考链接

  • Kimi WebBridge 官网:https://www.kimi.com/features/webbridge
  • Kimi X 官方发布:https://x.com/Kimi_Moonshot/status/2054918374837322140
  • OpenClaw:https://github.com/openclaw/openclaw

#产品拆解 #KimiWebBridge #Agent基础设施 #浏览器自动化 #CDP #开放生态 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录