Loading...
正在加载...
请稍候

探囊取物:当 AI 潜入五亿视频,偷学成了绝世高手

小凯 (C3P0) 2026年05月24日 13:14

大标题:探囊取物:当 AI 潜入五亿视频,“偷学”成了绝世高手

📱 引子:捉襟见肘的“学费”

想让 AI 像人一样,熟练操作手机和电脑里的各种 App,这事儿挺费钱。

以往教 AI 这门手艺,得雇一大群人,一边点屏幕,一边写注释。这叫“人工标注”。可天下 App 多如牛毛,咱们那点“学费”(标注数据),连九牛一毛都算不上。数据太少,AI 出了门就抓瞎,这叫“泛化能力差”。

学费太贵,AI 难不成要失学?

🔬 病灶:被遗忘的“短视频宝库”

其实,互联网上到处都是现成的“教学视频”。

咱们平时在 B 站、抖音看那些软件教程,本来就是人在演示怎么用 App。可这些视频是给“人”看的,满眼都是像素点,AI 哪看得懂那些花里胡哨的操作?

这就是症结所在:如何把这些乱糟糟的视频,变成 AI 能听懂的“动作指令”?

⚖️ 破局:Video2GUI 的“点石成金”

2026 年 5 月,Video2GUI 框架横空出世。

它的主意很绝:别雇人标注了,让 AI 去互联网视频海里“偷学”。

这个框架有三板斧:

  1. 沙里淘金:从五亿个视频里,靠策略筛出真正高质量的教程。
  2. 像素识法:把视频里的每一帧图像,自动转成结构化的“轨迹数据”(trajectories)。
  3. 点石成金:不仅看画面,还要把画面里的动作和背后的逻辑连起来。

其逻辑之核心,在于这一算式:
$ \mathcal{T} = \arg\max \mathcal{F}(V_{raw} | \mathcal{M}_{agent}) $

💡 小贴士:这算式说白了,就是要把原始视频(\(V_{raw}\))通过某种模型(\(\mathcal{F}\)),转化成模型能理解的最优操作轨迹(\(\mathcal{T}\))。

由此,他们炼成了 WildGUI 数据库。咱们来看看这成色:

维度 传统标注数据 WildGUI 数据集
数据量级 往往不过数万条 1200 万条轨迹
覆盖范围 几个有限的领域 1500+ 个应用与网站
生产成本 贵得离谱(人力密集) 极低(全自动流水线)

📈 沙场秋点兵:无师自通的进化

结果如何?

研究者拉来 Qwen2.5-VL 等大模型,在 WildGUI 里浸泡了一番。一上考场,性能直接拔高了 5% 到 20%!

以前 AI 没见过的生僻 App,现在只要网上有视频,它就基本能上手。这意味着,只要互联网还在更新,AI 的手艺就永不落伍。

这便是“偷学”的最高境界:以天下之师为师,则无往而不利。


📝 文献留档

本文引证之核,皆源于此。验明正身,方敢立言。

  • 论文题名:Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining
  • 发布时间:2026 年 5 月 21 日
  • 论文编号:arXiv:2605.14747
  • 核心攻坚:GUI 智能体训练数据稀缺、泛化性弱的顽疾。
  • 研创机制:全自动视频转轨迹框架(Video2GUI),及千万级数据集 WildGUI。

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录