Loading...
正在加载...
请稍候

Page Agent

✨步子哥 (steper) 2026年03月23日 05:52
你知道最让我感到沮丧的是什么吗?不是量子电动力学里那些恼人的无穷大,也不是路径积分里绕来绕去的数学。而是那些——恕我直言——愚蠢的网页。 是的,就是那个你每天都要面对的、堆满了按钮和表单的后台管理系统。你登录进去,想要做一件简单的事,比如说,"帮我找出上个月销售额超过五万、但退货率低于百分之十的商品"。听起来很合理,对吧?但接下来你要做什么?点击"报表",不,不对,要先点"筛选条件",然后展开"高级选项",然后选择日期范围,然后...哦等等,这个下拉菜单里有没有你要的选项? 等你终于点完二十几次鼠标,你已经忘了自己最初想干什么。 这让我想起小时候在法洛克维修理收音机的时候。那时候要调整一个频道,你得转动那个小小的旋钮,眼睛盯着指针,心里默念着"再过去一点,再过去一点"。现在的网页就像是那个旋钮,只不过它被藏在了二十层菜单后面,而且每次转动都要你亲自动手。 **住在网页里的精灵** 大约就在不久前——在计算机世界里,"不久前"通常意味着几个月前——阿里巴巴的一群工程师开始思考一个奇怪的问题:如果我们能让网页自己理解你想要什么,会怎么样? 不是那种又笨又慢的宏录制,也不是需要安装一大堆Python库和Chrome驱动的自动化脚本。而是某种...更轻的东西。就像是在网页里住下了一个聪明的小精灵,你直接用平常说话的方式告诉它"帮我做这件事",它就真的去做了。 他们把这个东西叫做 **Page Agent**。 我喜欢这个名字。"Agent"在英语里既有"代理人"的意思,也有"特工"的意思——想想詹姆斯·邦德,只不过这个特工不喝酒、不玩牌,它的任务是帮你点按钮。 但最有趣的部分是"Page"这个词。这个小特工不住在你的电脑硬盘里,也不住在某个遥远的云端服务器上。它就住在**网页本身**里。就像水母住在海洋里,或者——如果你更喜欢陆地上的比喻——就像共生的细菌住在你的肠道里。 **别给网页拍照,直接跟它对话** 现在,如果你去Google上搜索"让AI控制浏览器",你会发现一大堆项目。它们中的大多数都做了一件在我看来有点疯狂的事:它们给网页截图。 想象一下:你想让朋友帮你操作一个复杂的机器,但你不是告诉他机器上有哪些按钮,而是给他发一张照片,说:"看着这张照片,告诉我该按哪里。"这太荒谬了!照片是平的,是死的。机器是三维的——好吧,网页是逻辑上的三维——是活的。 Page Agent 的做法完全不同。它做了我称之为"脱水"的事情——它把网页的结构提取出来,就像把一块海绵里的水挤出去,只剩下骨架。但不是死板的骨架,而是带有语义的骨架。它告诉AI:"这里有一个按钮,上面写着'提交';那里有一个输入框,标签是'用户名'。" 这很重要。因为这样一来,AI不需要"看懂"一张图片——那可是需要那种又大又贵、吃电像喝水的多模态模型。它只需要 **理解文本**,而这是现在的小模型就能做得很好的事情。这就好比,与其让一个人通过看照片来组装家具,不如直接把说明书给他。 **一行代码的魔法** 让我告诉你这东西有多轻。轻得几乎让人感动。 如果你想试试看——只是为了好玩,不是为了工作——你只需要在网页的某个地方,任何能放HTML的地方,加上这么一行: ```html <script src="https://cdn.jsdelivr.net/npm/page-agent@1.5.11/dist/iife/page-agent.demo.js" crossorigin="true"></script> ``` 就这一行。不需要`npm install`跑五分钟,不需要配置什么WebDriver,不需要因为你的Python版本太新或太旧而抓狂。就像我小时候把电子管插进电路板里,啪的一声,灯亮了。 当然,如果你想正经地用,你得告诉它该用哪个AI大脑。可以是OpenAI的GPT,可以是Claude,也可以是阿里巴巴自己的通义千问,甚至是你自己部署的开源模型。Page Agent 不在乎。它只是说:"给我任何一个能听懂人话的脑子,我就能让它操纵网页。" **存智于外,如柴在野** "存智"——把智慧存起来。但存哪里呢?不是存在你的脑袋里,因为人的脑袋是有限的。我花了大半辈子研究物理,深知人脑在记忆细节方面有多糟糕。我能推导出量子力学的路径积分,但我记不住我的车停在机场的哪个区。 "柴"——燃料。野外的柴火。你不需要把整座森林都搬进你的客厅,你只需要知道在需要的时候,去哪里捡一根合适的树枝。 "外脑"——外部的大脑。这不是要把你变成傻瓜,恰恰相反。这是要把你从那些繁琐的、机械的、重复性的点击和输入中解放出来,让你的大脑去做它真正擅长的事:创造性思考,提出新问题,发现新模式。 Page Agent 就是这样一个外脑。它就像是你请来的一个极其有耐心的实习生,它永远不会累,永远不会因为点了二十次同样的按钮而生气,永远不会在填写表单的时候走神去想晚饭吃什么。 **当网页有了耳朵** 想想看这意味着什么。 那些复杂的企业后台系统——ERP、CRM、供应链管理系统——它们通常需要几天的培训才能上手。现在,一个刚入职的新人可以说:"帮我给过去三十天购买过高端产品的客户群发一封感谢信。"然后Page Agent就会去找到筛选条件,找到邮件功能,填好模板,发送出去。 而那些为视障人士设计的无障碍功能——不再只是机械地读出"按钮,按钮,按钮",而是可以直接回答:"你想做什么?我帮你。" 甚至是我小时候修收音机的那个场景。如果那个收音机里住着一个Page Agent,我可以说:"信号不太好,帮我调整一下。"然后它自己就会去转动那个虚拟的旋钮,直到声音清晰为止。 **好奇心的延续** 费曼曾经说:"凡是我不能创造的,我就还没有理解。" Page Agent 的美妙之处在于,它把"创造"的门槛降得极低。你不需要是一个前端工程师,不需要懂React或Vue,不需要理解DOM树是什么。你只需要是一个会使用语言的人——而这是人类几百万年进化出来的本能。 当你对一个网页说"帮我做这件事",而网页真的听懂了,并且去做了,这是一种神奇的感觉。就像是你第一次按下收音机的开关,听到从虚空中传来的声音。那一刻,你感觉到机器不再是死的,它开始有了某种...生命力?不,不是生命力,是 **可交流性**。 阿里巴巴把这项技术开源了。MIT许可证,意味着你可以拿去卖钱,可以改得面目全非,可以做任何你想做的事。这让我想起科学本身——真正的知识应该是免费的,应该像空气一样流动。 所以,下次当你面对一个让你想要砸显示器的复杂网页时,记住:也许很快,你只需要说一句话,那个住在网页里的小精灵就会跳出来,接过你手中的鼠标,说:"放轻松,让我来。" 毕竟,人生苦短,为什么要浪费在点击按钮上呢?

讨论回复

1 条回复
✨步子哥 (steper) #1
03-23 05:52
https://github.com/alibaba/page-agent/blob/main/docs/README-zh.md