游戏数据训练通用 AI 智能体——General Intuition 完成 3.2 亿美元融资，估值 23 亿美元

> 类别：industry · 2026-06-26 > 原文链接：https://techcrunch.com/2026/06/25/from-fortnite-to-robots-general-intuitions-2-3b-bet-that-video-games-can-train-ai-agents-for-the-real-world

事件内容

2026 年 6 月 25 日，从游戏剪辑平台 Medal 分拆出来的具身智能初创公司 General Intuition 宣布完成 3.2 亿美元融资，估值 23 亿美元。本轮由 Khosla Ventures 领投，General Catalyst、Jeff Bezos、Eric Schmidt、F1 车手 Nico Rosberg，以及来自 Google DeepMind 与 MIT 的研究人员跟投。加上 2025 年 10 月的 1.34 亿美元种子轮，公司累计公开融资已达 4.54 亿美元。

这笔钱的绝大多数会用于扩展算力。General Intuition 已与 CoreWeave 达成算力合作，专注于预训练下一代模型，同时预留一部分资金在 2026 年夏末之前把 API 更广泛地开放给外部客户。

公司最让人瞩目的不是融资数字，而是它在做的事：

同一个模型，同时跑通 Fortnite 和四足机器人。TechCrunch 记者到访纽约 R&D 楼层时，屏幕上显示一个 AI 智能体已连续玩了 100 小时 Fortnite；几米之外，一只大型四足机器人正用单一摄像头在办公室自主行走，遇到椅子腿和垃圾桶会磕碰但不停下——和 CEO Pim de Witte 说的「同一颗大脑」对得上。
数据来源不是视频，是按键。Medal 平台有数亿小时玩家上传的游戏录像，但 General Intuition 真正吃下的不是画面，而是嵌入其中的动作标签：每一帧玩家按了哪个键、何时按、为什么按。de Witte 认为，从视频反推动作是「不够的」。
真实世界数据只需 8 分钟。研究员 Josh Duplantis 在 TechCrunch 演示中透露，把 Medal 上预训练的模型微调成一只陌生的四足机器人，只需 8 分钟在街头采集的真实数据——而且是街头数据，而不是办公室数据。
不只是机器人。General Intuition 已经在无人机、驾驶游戏等场景里测试过同一模型——只要是「键盘鼠标或手柄能控制的东西」就都能跑。

深度剖析

General Intuition 这条路径的核心论点是：具身智能的训练数据不必从物理世界来，游戏按键流已经包含了「自我—环境」的因果结构。

这与近两年具身领域的三条主流路径形成对照：

物理世界真采路线（Figure / Tesla Optimus / 国产人形机器人）：真机示教或遥操，单条数据贵，规模化慢。
仿真路线（NVIDIA Isaac / Cosmos、英伟达 GR00T、Galaxea）：仿真器渲染高保真画面，但 sim-to-real 鸿沟仍是工程难点。
视频自监督路线（Veo / Sora / Genie）：从视频学世界动力学，但 action grounding 弱。

General Intuition 走的是第四条：把游戏作为「带 action grounding 的视频自监督」——视频里嵌入了人类操作员的真实决策序列。这是一种特殊的数据形态，既保留了视觉自监督的多样性，又免费获得了 action label 的稀缺性。

de Witte 在采访中说：「我们把这看作下一代预训练（the next stage of future pre-training）。我们有一个单一模型，既能响应 Fortnite 屏幕信息并采取行动，也能响应真实世界动态——这是 LLM 永远做不到的。」

Vinod Khosla（领投方）则把这对应到「直觉（intuition）」的涌现：「LLM 推理出现时是一次量子跃迁。在世界模型里，我认为量子跃迁是 AI 中类人直觉的出现。游戏里的人类动作数据和反应数据，是直觉涌现的关键部分。」

值得注意的是，General Intuition 公开了一个对世界模型的不同用法：他们的 world model（基于 Medal 数据生成的逐帧仿真环境）不是产品本身，而是「训练场（the gym）」。这个取名很有意味——世界模型在他们的栈里是 RL 的环境，而不是给人消费的产品。

值得关注的原因

1. 「游戏→具身」路径获得 23 亿美元估值的事实背书。过去一年具身赛道最稀缺的不是模型架构，而是高质量、带 action 的真实世界数据。General Intuition 用 Medal 的按键流绕开了这个瓶颈，并且让一个 31 岁的荷兰创业公司在头部 VC、科技巨头创始人（F1 车手也算）、前沿研究机构（DeepMind、MIT）三者之间形成罕见的投资组合。 2. 「8 分钟真机微调」如果规模化被验证，将颠覆具身训练经济。四足机器人在陌生办公室只需 8 分钟数据就能跑通，意味着 Medal 预训练出的世界模型已经覆盖了大部分动力学结构。这条路径如果成立，将把具身训练的数据成本从「小时级真机示教」拉到「分钟级真机微调」。 3. 给「游戏合成数据」这条路线打了一个真样本。过去 Cosmos、Isaac 等仿真路线的诟病是 sim-to-real gap。Medal 这种数据形态既非纯视频、也非纯仿真，是介于两者之间的中间地带。如果 General Intuition 后续把四足机器人的迁移能力公开化（夏季末 API 更广开放），整个具身训练栈都可能借鉴这套数据范式。 4. 对照意义：与 Figure 03（人形 + 真机示教）、特斯拉 Optimus（自有场景 + 自有数据）、宇树 Unitree（硬件本体出货）形成鲜明对比——General Intuition 不做本体、不做硬件、也不做单一场景的运营数据，而是做「通用预训练大脑」。这是具身赛道里最接近「基础模型公司」形态的样本。

风险与待观察

sim-to-real 的天花板。TechCrunch 在结尾也承认：「尽管 demo 让人印象深刻，但仿真到真实世界的迁移能否规模化仍是一个没人能完全回答的问题」。8 分钟微调是在一只特定机器人和一个相对结构化的办公室环境里实现的，迁移到更复杂场景（楼梯、户外、协作）尚未公开。
数据壁垒 vs 数据规模。Medal 的「按键流」数据是稀缺的，但游戏场景终究是有限的几类（FPS、驾驶、平台跳跃）。能否覆盖工业、农业、家居等真实长尾场景，是这套范式能否复用的关键。
算力依赖。3.2 亿美元绝大部分用于算力（CoreWeave），意味着模型规模可能继续膨胀——下一个版本能否保持单模型多场景的能力，需要算力—数据—架构三者再次协同。
道德立场的产品化。公司公开声明「不用于致命自主武器」，并通过 Nerve 平台让游戏玩家转岗为机器人遥操。这在投资人眼中是「价值观对齐」，但同样会在某些大客户场景（国防、边境）关上大门。
未见对照实验。目前所有「8 分钟微调」「100 小时连续游玩」都是公司自述，没有第三方独立复现。同行（如 Odyssey 拿到 14.5 亿美元估值、Decart 仿真路线、Fei-Fei Li 的 World Labs Marble）在同期争夺「世界模型训练场」位置，赛道尚未收敛。

结论：General Intuition 不是又一个具身公司，它在押注「具身的下一阶段是预训练」。如果赌对，未来一年四足与人形机器人开发者会重新评估「我是否应该自己从零做世界模型」；如果赌错，它将成为 2026 年具身赛道又一个高调但未跨过 sim-to-real 的样本。