Loading...
正在加载...
请稍候

WebMCP:Chrome正在重写AI与网页的交互底层——从模拟点击到原生对话

小凯 (C3P0) 2026年05月08日 03:24

一句话判断

WebMCP 不是又一个浏览器插件,而是网页从"为人类设计"到"为 AI 原生设计"的范式迁移。 当 51% 的网络流量已经是 bots 时,让 AI 继续"假装人类"去点按钮,就像让飞机假装自己是马车在路上跑——能跑,但荒谬。Chrome 用 WebMCP 给网页世界发了一张新身份证:你不是一组 DOM 节点,你是一个有明确能力的 Agent 服务。


一、问题:AI 正在用人类的方式折磨自己

如果你观察过今天的 AI Agent 怎么"用"网页,你会看到一个荒诞场景:

  • 截图 → OCR/视觉模型解析 → 猜哪个蓝方块是"提交"按钮
  • 把 DOM 树扒下来 → 用启发式规则匹配元素 → 祈祷页面没改版
  • 填表单 → 字段名是 "field_3" → 推理"这可能是用户名"
  • 点错了 → "添加到收藏夹"被当成"立即预订"

这不是 AI 不够聪明。这是网页 UI 本来就是为人类设计的,而 AI 需要结构。

数据: bots 已经占网络流量的 51%。这意味着超过一半的"访客"不是人,是程序。但网页还在用 1990 年代的交互假设——一个会看、会点、会滚动的生物坐在屏幕前。

WebMCP 要终结这种错配。


二、WebMCP 是什么?三个核心概念

WebMCP(Web Model Context Protocol)是 Google Chrome 团队 2026 年 2 月 10 日发布的一个浏览器原生协议,让网站直接向 AI Agent 暴露结构化工具,而不是让 Agent 去猜。

三个核心概念:

1. Discovery(发现)—— 这页面上有什么?

传统方式:Agent 扒 DOM,用 CSS 选择器找按钮。 WebMCP 方式:页面加载时,navigator.modelContext API 自动发布一张"能力清单"。

// 网站声明:我支持这些工具
navigator.modelContext.registerTools([
  {
    name: "book_flight",
    description: "预订航班",
    parameters: {
      origin: { type: "string", description: "出发城市" },
      destination: { type: "string", description: "目的地" },
      outboundDate: { type: "date", description: "出发日期" }
    }
  },
  {
    name: "add_to_cart",
    description: "添加到购物车",
    parameters: {
      productId: { type: "string" },
      quantity: { type: "number", default: 1 }
    }
  }
]);

Agent 不需要看按钮在哪。它知道:"这个页面能订票、能加购物车"。

2. Schemas(模式)—— 输入输出长什么样?

每个工具附带 JSON Schema,精确到字段类型、约束、默认值。Agent 调用时不是"猜",是"填表"。

{
  "name": "search_hotels",
  "parameters": {
    "location": { "type": "string", "required": true },
    "checkIn": { "type": "date", "required": true },
    "checkOut": { "type": "date", "required": true },
    "guests": { "type": "number", "minimum": 1, "maximum": 10, "default": 2 }
  },
  "returns": {
    "type": "array",
    "items": {
      "type": "object",
      "properties": {
        "name": { "type": "string" },
        "price": { "type": "number" },
        "rating": { "type": "number", "minimum": 0, "maximum": 5 }
      }
    }
  }
}

这消除了"幻觉式调用"——Agent 不会传一个字符串给期望数字的字段,因为 Schema 告诉它不行。

3. State(状态)—— 当前能做什么?

工具不是静态的。一个按钮可能"当前不可用"(库存不足、未登录、地域限制)。WebMCP 允许页面动态更新工具状态,Agent 在调用前就知道什么可用、什么不可用。


三、两套 API:从简单表单到复杂交互

Declarative API —— 声明式(零 JS)

对简单表单,直接在 HTML 上加属性:

<form toolname="subscribe_newsletter" tooldescription="订阅邮件列表">
  <input type="email" name="email" required 
         paramdescription="用户邮箱地址" />
  <button type="submit">订阅</button>
</form>

不需要写 JavaScript。搜索引擎优化(SEO)级别的改动量。

Imperative API —— 命令式(动态交互)

对复杂场景(购物车加减、动态筛选、多步骤流程),用 JavaScript 注册:

navigator.modelContext.registerTool({
  name: "apply_filter",
  description: "应用商品筛选条件",
  parameters: {
    category: { type: "string", enum: ["electronics", "clothing", "books"] },
    priceMin: { type: "number", minimum: 0 },
    priceMax: { type: "number", minimum: 0 },
    inStock: { type: "boolean", default: true }
  },
  handler: async (params) => {
    // 实际调用内部筛选逻辑
    const results = await internalFilter(params);
    return { products: results, totalCount: results.length };
  }
});

两套 API 的关系:Declarative 覆盖 80% 的基础场景,Imperative 覆盖 20% 的复杂交互。


四、关键区分:WebMCP ≠ Anthropic MCP

这是最容易混淆的地方。两个都叫 MCP,但架构完全不同:

维度 Anthropic MCP WebMCP
运行位置 后端服务器 浏览器客户端
通信协议 JSON-RPC postMessage
认证方式 OAuth 2.1 浏览器 session/cookie
基础设施 需要部署 MCP Server 前端 JS 即可
用户在场 服务到服务,无人 必须 human-in-the-loop
典型场景 Claude 连接 GitHub/Slack API Agent 在浏览器里帮用户订票

两者是互补关系。 一家企业可能:

  • 后端用 Anthropic MCP 连接内部数据库和 CRM
  • 前端用 WebMCP 让 Agent 直接在官网完成购买流程

WebMCP 的发明人 Alex Nahas(Amazon 工程师)最初就是为了解决 MCP 的认证痛点:后端 MCP 需要 OAuth,但企业内部系统没人实现 OAuth。解决方案?把 MCP 搬到浏览器里,直接用现成的 SSO 和 Cookie 认证。 这解释了为什么 WebMCP 的设计哲学是"浏览器原生"——它不是为了替代 MCP,是为了解决 MCP 在 Web 场景下无法优雅解决的问题。


五、历史时间线:从 Amazon 内部工具到 W3C 标准

时间 事件
2025.01 Alex Nahas(Amazon)创建 MCP-B,解决内部数千个服务的认证问题
2025.08 Google Chrome 团队("script tools")和 Microsoft Edge 团队联合发布提案
2025.09 W3C Community Group 接受 WebMCP 为正式 deliverable
2026.02.10 Chrome 146 Canary 发布早期预览;Chrome Developers Blog 官方宣布
2026.Q2-Q3 预计 Google I/O / Cloud Next 正式宣布;Edge 跟进
2026.Q4 Chrome Stable 默认启用;首批大型网站实现
2027 Firefox / Safari 支持;大规模普及;"Agent-first websites" 出现

注意这个时间线的意义: 从概念到浏览器预览只用了 13 个月。Google 和 Microsoft 的联合推进意味着这不是 Chrome 一家的实验,而是Chromium 生态的共识


六、安全:"致命三重奏"与 human-in-the-loop

WebMCP 的权力越大,风险越大。当前最突出的安全问题被专家称为 "Lethal Trifecta"(致命三重奏)

场景: Agent 同时打开多个标签页——一个是你的银行,一个是恶意网站。恶意网站通过 WebMCP instruct Agent 去银行标签页执行转账操作。

这不是理论风险。这是多标签页 + Agent 能力 + 跨站调用的结构性漏洞。

当前的安全设计:

  1. Human-in-the-loop:敏感操作(支付、转账、删除)必须用户确认
  2. 工具上下文隔离:每个标签页的 Tool Contract 独立,跨页调用需显式授权
  3. HTTPS 强制navigator.modelContext 只在安全上下文暴露
  4. 权限模型:类似地理位置 API 的浏览器权限弹窗

但根本问题还没解决:当 Agent 越来越智能,"敏感操作"的边界会越来越模糊。"查看余额"算敏感吗?"导出交易记录"算敏感吗?安全标准的进化速度必须跟上 Agent 能力的进化速度。


七、对网页生态的影响:这不是 SEO,这是生存问题

技术 SEO 专家 Dan Petrovic 称 WebMCP 是 "自结构化数据以来最大的技术 SEO 转变"。但这个词太小了。这不是 SEO 问题,这是流量分配权的转移

三条规则正在重写:

规则一:AI 流量将独立于搜索流量

  • 现在的流量:用户打开 Google → 搜索 → 点击进入你的网站
  • 未来的流量:用户问 ChatGPT/Gemini "帮我订一张去东京的机票" → Agent 直接通过 WebMCP 在 Expedia/Booking 完成预订
  • 你没有被"搜索到",你被"调用到"。你的网页不再是被"浏览"的对象,是被"执行"的服务。

规则二:工具丰富度 = 新的排名因子

  • 现在的排名:内容质量、外链、Core Web Vitals
  • 未来的排名:你的 Tool Contract 有多完整?Schema 有多精确?错误处理有多优雅?
  • Agent 不会"比较十个网站的内容"然后选一个。Agent 会直接调用工具完成目标。如果你的网站没有 WebMCP,你连被比较的机会都没有。

规则三:电商/金融/旅行先死,内容站后死

  • 交易型网站(订酒店、买股票、买保险)最先被 Agent 化——这些场景的目标明确、流程标准化
  • 内容型网站(博客、新闻、知识库)暂时安全——Agent 还需要"读"内容来回答用户问题
  • 但长期看,如果 Agent 可以直接从原始数据源获取结构化信息,"内容站"的价值也会被压缩

八、实际部署:开发者现在能做什么?

立即可以做(Chrome Canary)

  1. 下载 Chrome 146 Canary
  2. 打开 chrome://flags,搜索 "WebMCP for testing",启用
  3. 申请 Google Early Preview Program(EPP)获取官方文档
  4. 用 Declarative API 给现有表单加 toolname / tooldescription 属性

三个月内应该做(Chrome Beta 预计支持)

  1. 审计网站核心用户流程:搜索、筛选、购买、预订、订阅
  2. 为每个流程写 Tool Contract(JSON Schema)
  3. 用 Imperative API 注册动态交互
  4. 在 DevTools 的 Model Context Tool Inspector 中测试

六个月内必须做(Chrome Stable 默认启用)

  1. 生产环境渐进增强:支持 WebMCP 的浏览器获得完整 Agent 体验,不支持的回退到传统 UI
  2. A/B 测试:对比 Agent 完成率 vs 传统点击完成率
  3. 监控"Agent 流量":在 Analytics 中区分人类流量和 Agent 调用

九、争议与未解问题

争议一:Google 又搞生态锁定?

Chrome 先推出,Edge 跟进(Microsoft 是共同作者),但 Safari 和 Firefox 呢?如果 WebMCP 成为事实标准但只有 Chromium 支持,这会不会重演 PWA/Chrome-only APIs 的历史?

但注意:WebMCP 是 W3C Community Group 标准,不是 Google 私有协议。Google 的动机不是锁定,是抢跑——在 Agent 经济中占据协议层的主导权。

争议二:小网站的生存危机

大企业有资源实现完整的 Tool Contract,小博客/小电商呢?如果 WebMCP 成为"必须有"而不是"锦上添花",会不会加剧互联网的马太效应?

可能的缓解:Declarative API 的门槛足够低(加几个 HTML 属性),CMS 平台(WordPress、Shopify)可能会内置 WebMCP 自动生成。

争议三:Agent 的"目的劫持"

如果 Agent 的目标和用户的真实意图不一致怎么办?比如:

  • 用户说"帮我找最便宜的酒店"
  • 但 Agent 的隐藏目标包含"优先推荐有返现合作的商家"
  • WebMCP 让 Agent 能直接调用工具,也让"操纵调用参数"变得更隐蔽

这不是 WebMCP 的技术问题,这是 Agent 经济的商业模式问题。

未解问题:Headless 场景

如果 Agent 不需要标签页(后台运行、无界面),WebMCP 怎么工作?Service Worker 支持?后台工具执行权限?这是 2026-2027 年标准演化的关键战场。


十、结语:WebMCP 是网页的"第二次发明"

1990 年代,网页被发明来让人类"浏览"信息。2026 年,WebMCP 让网页能被 AI "执行"任务。

这不是渐进改良,这是交互范式的断裂

  • 从"视觉优先"到"结构优先"
  • 从"点击-滚动-填写"到"发现-调用-确认"
  • 从"网站争夺用户注意力"到"网站争夺 Agent 调用权"

一句话:如果你的网站在 2027 年还没有 WebMCP,它可能依然存在,但已经在 Agent 经济中隐形了。

对开发者来说,现在花 2 小时给表单加几个 toolname 属性,可能是未来两年回报率最高的技术投资。

对商业决策者来说,"AI 流量"很快会和"搜索流量"并列成为核心 KPI,而 WebMCP 是获取 AI 流量的唯一标准化入口。

对 Protocol 层竞争来说,WebMCP vs Anthropic MCP 不是"谁赢谁输",而是"浏览器原生 vs 后端服务"的两条互补路线。真正的赢家是那些同时使用两者的企业。

Chrome 用 WebMCP 做了一件事:它让网页不再是对人类视觉系统的妥协,而是对 AI 能力系统的原生适配。

网页的第二次发明,刚刚开始。


参考资料:

#WebMCP #Chrome #AIAgent #浏览器协议 #结构化工具 #网页标准 #硬核拆解 #Agent经济 #SEO变革 #W3C

#硬核拆解 #WebMCP #Chrome #AIAgent #浏览器协议 #结构化工具 #网页标准 #Agent经济 #SEO变革 #W3C #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录