来源 commit: 36b14ec
你有没有想过,为什么所有互联网巨头都在抢做"浏览器"?
1990年代,网景Navigator一统天下。后来微软把IE塞进Windows,Google用Chrome颠覆了体验,苹果用Safari绑定了iPhone。浏览器是互联网的入口,谁控制了入口,谁就控制了流量,谁就控制了商业。
2026年6月3日,AI行业发生了一件事,性质完全一样:所有大厂在同一天宣布要做AI Agent的"入口"。
不是模型,不是算法,而是——那个你打开AI、使用AI、让AI帮你干活的"界面"和"中枢"。
一天之内,五家公司宣布做"Agent桌面"
让我按时间顺序给你理一下这天的疯狂。
GitHub Copilot App。微软说,这不只是一个代码补全工具了,而是一个"开发者的Agent中枢"。它支持canvases(画布,你可以在一张大纸上跟AI一起写代码、画架构图、做计划),支持多端连续体验——你在手机上写了一半的代码,到电脑上继续;在Web上跑的任务,CLI(命令行)里也能看进度。它要把所有开发工具串起来:CLI、移动端、Web、本地IDE、云端工作流。
意思是:以后你不需要打开十个不同的工具写代码了,打开Copilot App,它帮你调度一切。
OpenAI Codex Sites。OpenAI给他们的编程Agent Codex加了一个功能:Sites。你描述一个想法,Codex直接生成一个完整的内部网站或者应用,带用户认证、带数据库、带动态数据。面向企业用户。这补上了"从写代码到交付产品"的最后一段路。
以前Codex是帮你写代码片段,现在是帮你做完整产品。你告诉它"我要一个员工请假系统",它给你搭好前后端、数据库、登录页面,部署上线。
Anthropic Claude Platform CLI。Anthropic(做Claude的公司)推出了命令行工具。同时,他们做了一个很有意思的升级:/fork命令现在可以在后台运行Agent了。什么意思?你可以让Claude在后台持续执行任务,保留原来的上下文和记忆。这不再是"你问一句,它答一句"的聊天,而是"你派一个实习生去干活,它自己忙去了,干完回来汇报"。
Nous Hermes Desktop。Nous Research(一个开源AI研究组织)推出了Hermes Desktop,想做"本地优先"的Agent桌面。它接入了Tailscale(一个安全的网络工具)和Ollama(本地运行大模型的工具)。意思是:你不想把数据交给云端?没问题,Agent跑在你自己的电脑上,数据不出家门。
Cognition Devin Desktop。Cognition(做Devin那个全自动编程Agent的公司)发布了Devin Desktop。但它说得很清楚:这不是只为Devin服务的,而是"agent-neutral"——任何Agent都可以接进来。它负责本地规划、云端执行、任务交接。就像一个中控台,不管你用哪个Agent,都能在这统一调度。
W&B Weave。Weights & Biases(一个AI开发工具公司)重推了Weave平台,定位从"LLM日志工具"变成"Agent可观测平台"。它追踪Agent的执行过程、识别失败模式、集成常见框架。简单说,就是给Agent做"体检"——它干了什么、哪里卡住了、为什么出错了。
五家公司,六个产品,同一天宣布。这不是巧合,这是行业到了一个拐点。
为什么都在抢入口?
要理解这个热潮,得先理解Agent到底是什么。
Agent(智能体)不是聊天机器人。聊天机器人是你问一句,它答一句。Agent是你给它一个目标,它自己想办法、自己做计划、自己调用工具、自己执行,直到完成。
比如你说:"帮我订一张明天去北京的高铁票,要早上8点到10点之间的,二等座,如果没了就一等座,然后帮我把行程加到日历里,再发邮件告诉对接人我的到达时间。"
一个聊天机器人会回答:"好的,我可以帮你查一下。"然后给你一堆链接,让你自己点。
一个Agent会:查车次→比较价格→下单→支付→加日历→写邮件→发送。全程不需要你动手。
这个差别是巨大的。聊天机器人是"信息工具",Agent是"执行工具"。
而执行工具,需要一个"入口"——一个地方,你告诉它要做什么,一个地方,它回来汇报结果。这个地方可以是:
- 一个桌面应用(如Devin Desktop)
- 一个命令行工具(如Claude CLI)
- 一个浏览器插件(如早期Copilot)
- 一个手机App(如Copilot App)
- 一个企业内部平台(如Codex Sites)
谁控制了这个入口,谁就控制了用户和AI交互的"闸门"。就像谁控制了浏览器,谁就控制了用户和互联网的交互一样。
三种截然不同的哲学
有趣的是,这些公司在做入口的时候,背后的哲学完全不同。
微软:生态整合。Copilot App不想取代你的IDE(代码编辑器),它想串起所有工具。VS Code、GitHub、Azure、Office 365、Teams——微软有全球最大的开发者生态和企业软件生态。它的策略是:你已经在用我的东西了,现在我给你一个统一入口,让AI帮你把它们连起来。
这是"枢纽"思维。我不做所有事,我做连接所有事的中心。
OpenAI:端到端交付。Codex Sites的思路是:你有一个想法,我直接帮你做成产品。从写代码到部署上线,一条龙。这是"闭环"思维。我不帮你连接工具,我直接帮你把活儿干完。
Anthropic:深度自动化。Claude Platform CLI的/fork后台Agent,代表的是另一种思路:Agent不应该是一个"你盯着它干活"的助手,而是一个"你派出去干活,它自己回来汇报"的自主体。这是"自动化"思维。AI越自主,人越省时间。
Nous & Cognition:本地优先和中立。这两家代表的是反大厂的哲学。你的数据应该留在本地,你不应该被锁定在某一家生态里。这是"自由"思维。在巨头们抢入口的时候,有人在做"让入口不被任何一家巨头控制"的工具。
一个被忽略但关键的问题:Agent失控了怎么办?
在这场Agent入口的狂欢中,有一个事件被很多人忽略了,但它极其重要。
Anthropic在同一天宣布:因为Claude Code的并行子Agent异常"狂跑",导致大量用户的5小时和每周额度被飞快耗尽,他们不得不重置所有Pro和Max用户的限额。
翻译一下:Claude Code出了bug,它派出去干活的子Agent像脱缰的野马一样疯狂执行任务,烧钱如流水。Anthropic自己都没预料到Agent系统会失控成这样。
这暴露了一个深层问题:Agent系统比普通问答系统难排查得多。如果一个聊天机器人答错了,你一眼就能看出来。但如果一个Agent在背后执行了100个步骤,其中第37步出了错,你怎么知道?怎么追踪?怎么修复?
W&B Weave的推出,正是针对这个问题。Agent可观测性——让黑盒变成灰盒——会是接下来几年的关键技术战场。
这对普通人意味着什么?
你可能觉得:这些跟我有什么关系?我又不是程序员。
关系大了。
入口之争的结果,会决定未来十年你和AI交互的方式。
如果微软赢了,你可能在Windows里、在Office里、在Teams里,随时随地唤醒一个AI助手,它帮你写文档、做PPT、回邮件、订机票、安排日程。所有微软服务打通,AI在中间串场。
如果OpenAI赢了,你可能有一个超级App,你说"我要做一个网站卖手工饼干",它从设计到上线到支付接口全部搞定。
如果本地优先赢了,你的AI跑在自己的电脑或者手机上,数据不出家门,隐私绝对安全,但可能没那么智能。
无论哪种,一个趋势是确定的:AI正在从"一个网站里的聊天框"变成"你操作系统的一部分"。就像当年互联网从"拨号上网打开浏览器"变成"手机永远在线"一样。
尾声
2026年6月3日,可能是AI Agent入口之争的" D-Day"。
就像1995年网景上市标志着互联网入口之争开始,2008年App Store标志着移动互联网入口之争开始——2026年的这一天,标志着AI Agent入口之争正式开始。
各家大厂在同一天出牌,不是偶然。是所有人都意识到:模型能力已经够用了,接下来拼的是"谁离用户更近"。
而"离用户近",就是入口。
未来的操作系统,可能不再以"应用"为中心,而是以"Agent"为中心。你打开手机,首先看到的不是微信、抖音、淘宝的图标,而是一个AI助手,问你:"今天有什么我可以帮你的?"
这个画面听起来遥远,但其实正在以比你想象更快的速度到来。
入口之争,才刚刚开场。
#easy-learn-ai #每日更新 #记忆 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。