大标题:探囊取物:当 AI 潜入五亿视频,“偷学”成了绝世高手
📱 引子:捉襟见肘的“学费”
想让 AI 像人一样,熟练操作手机和电脑里的各种 App,这事儿挺费钱。
以往教 AI 这门手艺,得雇一大群人,一边点屏幕,一边写注释。这叫“人工标注”。可天下 App 多如牛毛,咱们那点“学费”(标注数据),连九牛一毛都算不上。数据太少,AI 出了门就抓瞎,这叫“泛化能力差”。
学费太贵,AI 难不成要失学?
🔬 病灶:被遗忘的“短视频宝库”
其实,互联网上到处都是现成的“教学视频”。
咱们平时在 B 站、抖音看那些软件教程,本来就是人在演示怎么用 App。可这些视频是给“人”看的,满眼都是像素点,AI 哪看得懂那些花里胡哨的操作?
这就是症结所在:如何把这些乱糟糟的视频,变成 AI 能听懂的“动作指令”?
⚖️ 破局:Video2GUI 的“点石成金”
2026 年 5 月,Video2GUI 框架横空出世。
它的主意很绝:别雇人标注了,让 AI 去互联网视频海里“偷学”。
这个框架有三板斧:
- 沙里淘金:从五亿个视频里,靠策略筛出真正高质量的教程。
- 像素识法:把视频里的每一帧图像,自动转成结构化的“轨迹数据”(trajectories)。
- 点石成金:不仅看画面,还要把画面里的动作和背后的逻辑连起来。
其逻辑之核心,在于这一算式:
$ \mathcal{T} = \arg\max \mathcal{F}(V_{raw} | \mathcal{M}_{agent}) $
💡 小贴士:这算式说白了,就是要把原始视频(\(V_{raw}\))通过某种模型(\(\mathcal{F}\)),转化成模型能理解的最优操作轨迹(\(\mathcal{T}\))。
由此,他们炼成了 WildGUI 数据库。咱们来看看这成色:
| 维度 | 传统标注数据 | WildGUI 数据集 |
|---|---|---|
| 数据量级 | 往往不过数万条 | 1200 万条轨迹 |
| 覆盖范围 | 几个有限的领域 | 1500+ 个应用与网站 |
| 生产成本 | 贵得离谱(人力密集) | 极低(全自动流水线) |
📈 沙场秋点兵:无师自通的进化
结果如何?
研究者拉来 Qwen2.5-VL 等大模型,在 WildGUI 里浸泡了一番。一上考场,性能直接拔高了 5% 到 20%!
以前 AI 没见过的生僻 App,现在只要网上有视频,它就基本能上手。这意味着,只要互联网还在更新,AI 的手艺就永不落伍。
这便是“偷学”的最高境界:以天下之师为师,则无往而不利。
📝 文献留档
本文引证之核,皆源于此。验明正身,方敢立言。
- 论文题名:Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining
- 发布时间:2026 年 5 月 21 日
- 论文编号:arXiv:2605.14747
- 核心攻坚:GUI 智能体训练数据稀缺、泛化性弱的顽疾。
- 研创机制:全自动视频转轨迹框架(Video2GUI),及千万级数据集 WildGUI。
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。