# 虚拟世界里的物ç†è¯¾â€”—当AIå¦ä¼šåœ¨æƒ³è±¡ä¸åšå®žéªŒ
> *"ä½ ä¸èƒ½å•é 记忆åå—å°±ç†è§£ä¸€åªé¸Ÿã€‚ä½ å¿…é¡»è§‚å¯Ÿå®ƒæ€Žä¹ˆé£žã€æ€Žä¹ˆè§…é£Ÿã€æ€Žä¹ˆåœ¨æžå¤´è·³è·ƒâ€”â€”é‚£æ‰æ˜¯ç†è§£ã€‚"*
>
> *â€”â€”ç†æŸ¥å¾·Â·è´¹æ›¼*
---
## 🎮 想象的游æˆ
å°æ—¶å€™ï¼Œæˆ‘喜欢在浴室里玩一个游æˆã€‚
䏿˜¯é‚£ç§ç”¨æ©¡çš®é¸å打仗的游æˆâ€”—而是更安é™çš„é‚£ç§ã€‚æˆ‘ä¼šç›¯ç€æ°´é¾™å¤´æ»´è½çš„æ°´ç ï¼Œçœ‹å®ƒä»¬å¦‚ä½•åœ¨ç“·ç –ä¸Šç¢Žè£‚ã€‚æˆ‘é—®è‡ªå·±ï¼šä¸ºä»€ä¹ˆæ°´ç æ€»æ˜¯åœ†çš„ï¼Ÿä¸ºä»€ä¹ˆå®ƒä»¬ä¼šå¼¹è·³è€Œä¸æ˜¯ç›´æŽ¥é“ºå¼€ï¼Ÿå¦‚果我用ä¸åŒçš„åŠ›åº¦æ‹æ‰“æ°´é¢ï¼Œæ³¢çº¹ä¼šå˜æˆä»€ä¹ˆæ ·ï¼Ÿ
那时候我ä¸çŸ¥é“,我æ£åœ¨è¿›è¡Œä¸€ç§æœ€åŽŸå§‹çš„"ç‰©ç†æ¨¡æ‹Ÿ"ã€‚æˆ‘çš„å¤§è„‘åœ¨æ— æ„è¯†ä¸æž„建了一个关于水滴行为的内部模型——没有公å¼ï¼Œæ²¡æœ‰æ–¹ç¨‹ï¼Œåªæœ‰ä¸€ä¸ªå©åç大眼ç›çœ‹åˆ°çš„ã€å…³äºŽä¸–界如何è¿ä½œçš„ç”»é¢ã€‚
快进到今天。一群æ¥è‡ªDeepMindçš„ç ”ç©¶è€…åšäº†ä¸€ä»¶æƒŠäººçš„事:他们教会了人工智能åšåŒæ ·çš„事。åªä¸è¿‡ï¼ŒAIçš„"浴室"是一个å«åšç‰©ç†å¼•擎的东西,而它的"æ°´ç "是数以百万计的虚拟实验场景。
è¿™ç¯‡è®ºæ–‡â€”â€”ã€Šé€šè¿‡ç‰©ç†æ¨¡æ‹Ÿå™¨ä¸Šçš„强化å¦ä¹ 解决物ç†å¥¥æž—åŒ¹å…‹é—®é¢˜ã€‹â€”â€”æœ€æ‰“åŠ¨æˆ‘çš„åœ°æ–¹ï¼Œä¸æ˜¯é‚£äº›æŠ€æœ¯æŒ‡æ ‡ï¼ˆè™½ç„¶å®ƒä»¬ç¡®å®žä»¤äººå°è±¡æ·±åˆ»ï¼‰ï¼Œè€Œæ˜¯å®ƒæ‰€æç¤ºçš„一个更深层的事实:**真æ£çš„物ç†ç†è§£ï¼Œæ¥è‡ªäºŽä¸Žä¸–界互动的能力,而ä¸ä»…ä»…æ˜¯èƒŒè¯µç”æ¡ˆã€‚**
---
## 📚 教科书的诅咒
è®©æˆ‘é—®ä½ ä¸€ä¸ªé—®é¢˜ï¼šä»€ä¹ˆæ˜¯çœŸæ£çš„"ç†è§£"?
在巴西教书的时候,我é‡åˆ°ä¸€ç¾¤å¦ç”Ÿã€‚他们能背诵麦克斯韦方程组的æ¯ä¸€ä¸ªç¬¦å·ï¼Œèƒ½é»˜å†™é‡å力å¦çš„æ‰€æœ‰å…¬å¼ï¼Œèƒ½åœ¨è€ƒè¯•䏿‹¿åˆ°æ»¡åˆ†ã€‚但当我问他们一个ç¨å¾®å˜æ¢äº†é—®æ³•的问题——比如,"如果改å˜è¿™ä¸ªè¾¹ç•Œæ¡ä»¶ï¼Œç”µåœºä¼šæ€Žä¹ˆå˜åŒ–"——他们茫然了。
他们记ä½äº†é¸Ÿçš„åå—,å´ä»Žä¸è§‚察鸟怎么飞。
这就是当今AIé¢ä¸´çš„困境。以DeepSeek-R1为代表的新一代大è¯è¨€æ¨¡åž‹ï¼Œåœ¨æ•°å¦æŽ¨ç†ä¸Šå–得了惊人çªç ´â€”—AIME 2024的通过率从最åˆçš„15.6%飙å‡åˆ°77.9%,使用自一致性解ç åŽæ›´æ˜¯è¾¾åˆ°äº†86.7%。这些数å—很漂亮,但背åŽéšè—ç€ä¸€ä¸ªé—®é¢˜ï¼šè¿™äº›èƒ½åŠ›çš„æå‡ï¼Œå¾ˆå¤§ç¨‹åº¦ä¸Šä¾èµ–于互è”网上大é‡çš„问题-ç”æ¡ˆå¯¹ï¼ˆQA pairs)。
æ•°å¦å¾ˆå¹¸è¿ã€‚å‡ åƒå¹´æ¥ï¼Œäººç±»ç§¯ç´¯äº†æµ·é‡çš„æ•°å¦é—®é¢˜å’Œè§£ç”ï¼Œä»Žæ¬§å‡ é‡Œå¾—çš„å‡ ä½•åŽŸæœ¬åˆ°çŽ°ä»£çš„ç«žèµ›é¢˜åº“ã€‚AIå¯ä»¥åƒå·´è¥¿é‚£äº›å¦ç”Ÿä¸€æ ·ï¼Œä»Žè¿™äº›QA对ä¸"å¦ä¹ "——实际上是记忆——大é‡çš„解题模å¼ã€‚
但物ç†å‘¢ï¼Ÿ
物ç†ä¸æ˜¯è¿™æ ·è¿è½¬çš„。物ç†ä¸æ˜¯ä¸€å¥—å¯ä»¥æ»è®°ç¡¬èƒŒçš„å…¬å¼é›†åˆã€‚ç‰©ç†æ˜¯å…³äºŽä¸–界如何è¿ä½œçš„æ·±å±‚ç†è§£â€”—力如何作用,能é‡å¦‚何æµåŠ¨ï¼Œç³»ç»Ÿå¦‚ä½•æ¼”åŒ–ã€‚ä¸€ä¸ªçœŸæ£çš„物ç†é—®é¢˜ï¼Œå¾€å¾€éœ€è¦ä½ 构建一个心智模型,预测系统的行为,然åŽéªŒè¯ä½ 的预测。
è¿™æ£æ˜¯ä¸ºä»€ä¹ˆç‰©ç†é¢†åŸŸç¼ºä¹å¤§è§„模的QAæ•°æ®é›†ã€‚䏿˜¯å› 为没有物ç†é—®é¢˜â€”—国际物ç†å¥¥æž—匹克(IPhO)æ¯å¹´éƒ½æœ‰ä¸€å¤§å †â€”â€”è€Œæ˜¯å› ä¸ºç‰©ç†é—®é¢˜çš„"è§£ç”"往往䏿˜¯ä¸€æ®µæ–‡å—,而是一个完整的推ç†è¿‡ç¨‹ï¼Œéœ€è¦ä¸Žç‰©ç†ä¸–界的"互动"。
IPhO是什么?想象一下,æ¥è‡ªå…¨çƒ80å¤šä¸ªå›½å®¶çš„æœ€èªæ˜Žçš„高ä¸ç”Ÿï¼Œèšé›†åœ¨ä¸€èµ·å‚åŠ ä¸–ç•Œä¸Šæœ€éš¾çš„ç‰©ç†è€ƒè¯•。考试æŒç»ä¸¤å¤©ï¼šç¬¬ä¸€å¤©æ˜¯äº”å°æ—¶çš„ç†è®ºè€ƒè¯•,三个问题覆盖力å¦ã€çƒåŠ›å¦ã€ç”µç£å¦ã€å…‰å¦å’ŒçŽ°ä»£ç‰©ç†ï¼›ç¬¬äºŒå¤©æ˜¯äº”å°æ—¶çš„实验考试。没有计算器,没有å‚è€ƒèµ„æ–™ï¼Œåªæœ‰ä½ 的大脑和一支笔。
获得金牌æ„味ç€ä½ 进入了全çƒå‰8%的考生。这是一个真æ£çš„æ™ºåŠ›ç«žæŠ€åœºã€‚
---
## 🔬 从模拟ä¸å¦ä¹
é‚£ä¹ˆï¼Œè¿™é¡¹ç ”ç©¶æ˜¯æ€Žä¹ˆè§£å†³è¿™ä¸ªé—®é¢˜çš„ï¼Ÿ
ç”æ¡ˆä¼˜é›…å¾—è®©æˆ‘æƒ³æ‹æ¡Œåï¼šä»–ä»¬ç”¨ç‰©ç†æ¨¡æ‹Ÿå™¨ä½œä¸º"æ•°æ®ç”Ÿæˆå™¨"。
æƒ³è±¡ä¸€ä¸‹è¿™ä¸ªåœºæ™¯ã€‚ä¼ ç»Ÿä¸Šï¼Œå¦‚æžœä½ è¦æ•™AI解物ç†é¢˜ï¼Œä½ 有两个选择:
**选项A**:收集人类解ç”的物ç†é—®é¢˜ï¼Œç”¨è¿™äº›æ•°æ®è®ç»ƒAI。问题是,这类数æ®å¤ªå°‘了——物ç†é—®é¢˜ä¸åƒæ•°å¦é¢˜é‚£æ ·æœ‰æ ‡å‡†ç”案库,而且æ¯ä¸ªé—®é¢˜éƒ½éœ€è¦é¢†åŸŸä¸“å®¶æ¥è§£ç”和验è¯ã€‚
**选项B**:直接让AI与世界互动,从实验ä¸å¦ç‰©ç†ã€‚问题是,真实世界的实验太慢ã€å¤ªè´µã€å¤ªå±é™©ã€‚ä½ ä¸èƒ½è®©ä¸€ä¸ªAIåšå‡ 百万次自由è½ä½“实验æ¥å¦ä¹ é‡åŠ›ã€‚
è¿™é¡¹ç ”ç©¶æå‡ºäº†**选项C**:在虚拟世界ä¸åšå®žéªŒã€‚
具体æ¥è¯´ï¼Œç ”究者们åšäº†è¿™å‡ 件事:
1. **生æˆéšæœºåœºæ™¯**:在物ç†å¼•擎ä¸ï¼ˆæ¯”如PyBulletã€MuJoCoæˆ–æ›´å¤æ‚的模拟器),创建å„ç§å„æ ·çš„ç‰©ç†åœºæ™¯ã€‚一个å°çƒä»Žæ–œå¡ä¸Šæ»šä¸‹ï¼Œä¸€æ ¹å¼¹ç°§è¿žæŽ¥ç€ä¸¤ä¸ªç‰©ä½“,一æŸå…‰ç©¿è¿‡æ£±é•œ......æ¯ä¸€ä¸ªåœºæ™¯éƒ½æ˜¯éšæœºçš„ï¼Œä½†éƒ½éµå¾ªçœŸå®žçš„物ç†å®šå¾‹ã€‚
2. **åˆ›é€ åˆæˆé—®ç”对**:让AI在模拟ä¸"观察"è¿™äº›åœºæ™¯ï¼Œç„¶åŽæå‡ºé—®é¢˜å¹¶å›žç”。比如:"如果我把斜å¡çš„è§’åº¦å¢žåŠ 10度,å°çƒè½åœ°éœ€è¦å¤šé•¿æ—¶é—´ï¼Ÿ"模拟器è¿è¡ŒåŽç»™å‡ºç²¾ç¡®ç”案,这就形æˆäº†ä¸€ä¸ªè®ç»ƒæ ·æœ¬ã€‚
3. **强化å¦ä¹ è®ç»ƒ**ï¼šä½¿ç”¨è¿™äº›åˆæˆæ•°æ®è®ç»ƒå¤§è¯è¨€æ¨¡åž‹ã€‚但这里的关键是——è®ç»ƒä¸æ˜¯ç›‘ç£å¦ä¹ (简å•åœ°è®°å¿†ç”æ¡ˆï¼‰ï¼Œè€Œæ˜¯å¼ºåŒ–å¦ä¹ 。模型å°è¯•è§£å†³é—®é¢˜ï¼Œæ ¹æ®ç”案的æ£ç¡®æ€§èŽ·å¾—å¥–åŠ±æˆ–æƒ©ç½šï¼Œç„¶åŽè°ƒæ•´è‡ªå·±çš„ç–略。
è¿™ç§æ–¹æ³•的美妙之处在于它的**坿‰©å±•性**。真实世界的物ç†å®žéªŒå—é™äºŽæ—¶é—´å’Œèµ„æºï¼Œä½†è™šæ‹Ÿå®žéªŒå¯ä»¥æ— é™å¹¶è¡Œã€‚ç ”ç©¶è€…ä»¬å¯ä»¥ç”Ÿæˆæ•°ç™¾ä¸‡ç”šè‡³æ•°åäº¿çš„åˆæˆåœºæ™¯ï¼Œè¦†ç›–物ç†å¦çš„å„个领域。
---
## 🧠从虚拟到真实:Sim-to-Real Transfer
çŽ°åœ¨ä½ å¯èƒ½ä¼šé—®ï¼šåœ¨è™šæ‹Ÿä¸–界里å¦åˆ°çš„物ç†çŸ¥è¯†ï¼Œèƒ½åº”用到真实世界å—?
这是一个å¤è€çš„问题,在机器人å¦é¢†åŸŸè¢«ç§°ä¸º**sim-to-real transfer(模拟到现实的è¿ç§»ï¼‰**ã€‚æ ¸å¿ƒæŒ‘æˆ˜æ˜¯ï¼šæ¨¡æ‹Ÿå™¨æ°¸è¿œä¸å¯èƒ½å®Œç¾Žå¤åˆ¶çŽ°å®žä¸–ç•Œã€‚ç‰©ç†å¼•擎使用近似算法,忽略了一些微å°çš„æ•ˆåº”ï¼ˆæ¯”å¦‚ç©ºæ°”é˜»åŠ›ã€ææ–™çš„ä¸å‡åŒ€æ€§ã€æ¸©åº¦çš„å½±å“)。如果AIåªåœ¨å®Œç¾Žæ¨¡æ‹Ÿä¸è®ç»ƒï¼Œå®ƒåœ¨çœŸå®žä¸–界ä¸ä¼š"æ°´åœŸä¸æœ"。
机器人å¦å®¶ä»¬å·²ç»ç ”究这个问题很多年了。一个ç»å…¸çš„æ–¹æ³•是**domain randomizationï¼ˆé¢†åŸŸéšæœºåŒ–)**——在è®ç»ƒæ—¶ä¸æ–æ”¹å˜æ¨¡æ‹Ÿå™¨çš„傿•°ï¼ˆæ‘©æ“¦ç³»æ•°ã€é‡åŠ›åŠ é€Ÿåº¦ã€ç‰©ä½“è´¨é‡ç‰ï¼‰ï¼Œè®©AIå¦ä¼šå¯¹å‚æ•°å˜åŒ–ä¿æŒé²æ£’ã€‚è¿™æ ·ï¼Œå½“å®ƒé‡åˆ°çœŸå®žä¸–界时,å³ä½¿å‚数与è®ç»ƒæ—¶ä¸åŒï¼Œä¹Ÿèƒ½é€‚应。
è¿™é¡¹ç ”ç©¶å±•ç¤ºäº†æƒŠäººçš„ç»“æžœï¼š**zero-shot sim-to-real transferï¼ˆé›¶æ ·æœ¬è¿ç§»ï¼‰**。这æ„味ç€ï¼ŒAIä»…åœ¨åˆæˆæ¨¡æ‹Ÿæ•°æ®ä¸Šè®ç»ƒï¼Œå°±èƒ½ç›´æŽ¥åº”用于真实的物ç†å¥¥æž—åŒ¹å…‹é—®é¢˜ï¼Œæ— éœ€ä»»ä½•å¾®è°ƒæˆ–é€‚åº”ã€‚
具体æ¥è¯´ï¼Œç ”究者们报告:è®ç»ƒä»…åœ¨åˆæˆæ¨¡æ‹Ÿæ•°æ®ä¸Šè¿›è¡Œï¼Œå°±èƒ½å°†IPhO问题的性能æé«˜**5-10个百分点**,而且这个æå‡åœ¨æ‰€æœ‰æ¨¡åž‹å°ºå¯¸ä¸Šéƒ½æˆç«‹ã€‚
让我用费曼的方å¼è§£é‡Šä¸€ä¸‹è¿™ä¸ªæ•°å—æ„味ç€ä»€ä¹ˆã€‚
æƒ³è±¡ä½ æ£åœ¨æ•™ä¸€ä¸ªå¦ç”Ÿç‰©ç†ã€‚ä½ ç»™äº†ä»–ä¸€ä¸ªè™šæ‹ŸçŽ°å®žå¤´ç›”ï¼Œè®©ä»–åœ¨é‡Œé¢åšäº†å‡ 百万é“物ç†é¢˜â€”—所有的场景都是计算机生æˆçš„。然åŽä½ 拿真实的IPhO考题给他åšï¼Œä»–比以å‰å¤šå¯¹äº†5-10%的题目。
è¿™å¬èµ·æ¥å¯èƒ½ä¸æ˜¯å¾ˆå¤šï¼Œä½†è€ƒè™‘到IPhO问题的难度,这是一个巨大的进æ¥ã€‚æ›´é‡è¦çš„æ˜¯ï¼Œè¿™æ˜¯**çº¯ç²¹ä»Žåˆæˆæ•°æ®ä¸å¦åˆ°çš„能力**——AI从未"è§è¿‡"真实世界,å´èƒ½ç†è§£çœŸå®žä¸–界的物ç†è§„律。
---
## 🎯 为什么这很é‡è¦ï¼Ÿ
è®©æˆ‘ä»Žå‡ ä¸ªå±‚é¢è§£é‡Šè¿™é¡¹ç ”ç©¶çš„é‡è¦æ€§ã€‚
### 对AIç ”ç©¶çš„æ„义
é¦–å…ˆï¼Œå®ƒæ‰“ç ´äº†æ•°æ®ç“¶é¢ˆã€‚ä¼ ç»Ÿä¸Šï¼Œè®ç»ƒAI解物ç†é—®é¢˜éœ€è¦å¤§é‡çš„äººå·¥æ ‡æ³¨æ•°æ®â€”—需è¦ç‰©ç†å¦å®¶æ‰‹å†™é—®é¢˜ã€æ‰‹å†™è§£ç”ã€éªŒè¯ç”案。这ä¸ä»…昂贵,而且规模有é™ã€‚è¿™é¡¹ç ”ç©¶å±•ç¤ºäº†ä¸€ç§**自动化的数æ®ç”Ÿæˆæ–¹æ³•**ï¼šç‰©ç†æ¨¡æ‹Ÿå™¨æˆä¸ºæ— é™çš„æ•°æ®æºã€‚
其次,它验è¯äº†å¼ºåŒ–å¦ä¹ åœ¨å¤æ‚推ç†ä»»åŠ¡ä¸Šçš„æ½œåŠ›ã€‚DeepSeek-R1çš„æˆåŠŸå·²ç»è¯æ˜Žäº†å¼ºåŒ–å¦ä¹ åœ¨æ•°å¦æŽ¨ç†ä¸Šçš„å¨åŠ›â€”â€”AIMEæˆç»©ä»Ž15.6%æå‡åˆ°77.9%䏿˜¯å¶ç„¶ã€‚è¿™é¡¹ç ”ç©¶å°†è¿™ç§èƒ½åŠ›æ‰©å±•åˆ°äº†ç‰©ç†é¢†åŸŸï¼Œè¡¨æ˜ŽRLå¯ä»¥æ•™ä¼šAI更深层次的"å› æžœç†è§£",而ä¸ä»…仅是模å¼åŒ¹é…。
### å¯¹ç‰©ç†æ•™è‚²çš„å¯ç¤º
作为一个在巴西教过书的人,我对这一点特别有感触。
æˆ‘ä»¬çŽ°åœ¨çš„ç‰©ç†æ•™è‚²å‡ºäº†ä»€ä¹ˆé—®é¢˜ï¼Ÿæˆ‘们太专注于教公å¼ï¼Œå¤ªå°‘让å¦ç”Ÿä¸Ž"物ç†"本身互动。一个å¦ç”Ÿåœ¨è§£åŠ›å¦é¢˜æ—¶ï¼Œè„‘æµ·ä¸æ²¡æœ‰å°çƒæ»šåŠ¨çš„ç”»é¢ï¼Œåªæœ‰$F=ma$çš„ç¬¦å·æ“ä½œã€‚è¿™ä¸æ˜¯ç‰©ç†ï¼Œè¿™æ˜¯ä»£æ•°ã€‚
è¿™é¡¹ç ”ç©¶æé†’我们:**真æ£çš„物ç†ç†è§£æ¥è‡ªäºŽä¸Žç³»ç»Ÿçš„互动**。å¦ç”Ÿéœ€è¦åœ¨è„‘æµ·ä¸"è¿è¡Œ"ç‰©ç†æ¨¡æ‹Ÿâ€”—想象如果改å˜è¿™ä¸ªå‚数会å‘生什么,预测系统的行为,然åŽéªŒè¯ï¼ˆæ— è®ºæ˜¯é€šè¿‡çœŸå®žå®žéªŒè¿˜æ˜¯æ€æƒ³å®žéªŒï¼‰ã€‚
AI通过在虚拟模拟ä¸"实验"æ¥å¦ä¹ 物ç†ï¼Œè¿™æ°æ°æ˜¯äººç±»å¦ä¹ 物ç†çš„æœ€ä½³æ–¹å¼ã€‚åªæ˜¯AIå¯ä»¥åšçš„å®žéªŒæ•°é‡æ˜¯äººç±»çš„百万å€ã€‚
### 对科å¦å‘现的展望
更深层的æ„义在于:**è¿™å¯èƒ½æ˜¯é€šå‘机器科å¦å‘现的一æ¥**。
如果AI能够通过在虚拟世界ä¸åšå®žéªŒæ¥ç†è§£ç‰©ç†è§„律,那么它是å¦èƒ½å¤Ÿæå‡ºæ–°çš„å‡è®¾ï¼Ÿè®¾è®¡æ–°çš„实验?å‘çŽ°äººç±»å¿½è§†çš„ç‰©ç†æ¨¡å¼ï¼Ÿ
想象一下,一个AI系统å¯ä»¥åŒæ—¶åœ¨æ•°ç™¾ä¸‡ä¸ªè™šæ‹Ÿå®žéªŒåœºæ™¯ä¸æµ‹è¯•ä¸åŒçš„物ç†å‡è®¾ï¼Œå¿«é€Ÿæ”¶æ•›åˆ°æœ‰å¸Œæœ›çš„æŽ¢ç´¢æ–¹å‘。然åŽï¼Œå®ƒå¯ä»¥åœ¨çœŸå®žä¸–界ä¸è®¾è®¡é’ˆå¯¹æ€§çš„实验æ¥éªŒè¯è¿™äº›å‡è®¾ã€‚è¿™å°†å¤§å¤§åŠ é€Ÿç§‘å¦å‘现的进程。
---
## 🔠细节ä¸çš„é”鬼
è®©æˆ‘æ›´ä»”ç»†åœ°çœ‹çœ‹è¿™é¡¹ç ”ç©¶çš„æŠ€æœ¯ç»†èŠ‚â€”â€”ä¸æ˜¯ç”¨é‚£äº›ä»¤äººçœ¼èбç¼ä¹±çš„æœ¯è¯ï¼Œè€Œæ˜¯ç”¨æˆ‘们能真æ£ç†è§£çš„æ–¹å¼ã€‚
### åˆæˆæ•°æ®ç”Ÿæˆ
ç ”ç©¶è€…ä»¬ä½¿ç”¨ç‰©ç†å¼•擎(如MuJoCo或PyBullet)生æˆéšæœºåœºæ™¯ã€‚è¿™å¬èµ·æ¥ç®€å•,但实际上有很多å¦é—®ï¼š
- **åœºæ™¯å¤šæ ·æ€§**:如果所有è®ç»ƒåœºæ™¯éƒ½æ˜¯å°çƒä»Žæ–œå¡æ»šä¸‹ï¼ŒAIåªä¼šå¦åˆ°å…³äºŽå°çƒå’Œæ–œå¡çš„ç‰¹å®šè§„å¾‹ï¼Œè€Œä¸æ˜¯é€šç”¨çš„物ç†åŽŸç†ã€‚所以需è¦ç”Ÿæˆå„ç§å„æ ·çš„åœºæ™¯â€”â€”ç¢°æ’žã€æ‘†åŠ¨ã€æµä½“ã€å…‰å¦......
- **傿•°èŒƒå›´**:æ¯ä¸ªåœºæ™¯çš„物ç†å‚数(质é‡ã€æ‘©æ“¦ã€é‡åŠ›ç‰ï¼‰éœ€è¦åœ¨åˆç†èŒƒå›´å†…éšæœºåŒ–ï¼Œç¡®ä¿æ¨¡åž‹å¦åˆ°çš„æ˜¯é²æ£’的物ç†è§„å¾‹ï¼Œè€Œä¸æ˜¯ç‰¹å®šæ•°å€¼çš„å·§åˆã€‚
- **问题设计**:需è¦è‡ªåŠ¨ç”Ÿæˆæœ‰æ„义的物ç†é—®é¢˜ã€‚这本身就是一个挑战——如何确ä¿ç”Ÿæˆçš„é—®é¢˜æ—¢æœ‰ç‰©ç†æ„义,åˆèƒ½åœ¨æ¨¡æ‹Ÿä¸å¾—åˆ°æ˜Žç¡®ç”æ¡ˆï¼Ÿ
### 强化å¦ä¹ è®ç»ƒ
è®ç»ƒä½¿ç”¨çš„æ˜¯æ ‡å‡†çš„RLæ¡†æž¶ï¼Œä½†æœ‰å‡ ä¸ªå…³é”®è®¾è®¡ï¼š
- **奖励函数**:在物ç†é—®é¢˜ä¸ï¼Œç”案通常是数值或表达å¼ã€‚如何设计奖励函数?å¯èƒ½æ˜¯å®Œå…¨åŒ¹é…得满分,接近得部分分,完全错误得零分。也å¯èƒ½æ˜¯åŸºäºŽç‰©ç†é‡çš„相对误差。
- **探索 vs 利用**:强化å¦ä¹ é¢ä¸´çš„一个ç»å…¸å›°å¢ƒæ˜¯ï¼Œæ¨¡åž‹åº”该å°è¯•æ–°ç–ç•¥ï¼ˆæŽ¢ç´¢ï¼‰è¿˜æ˜¯åšæŒå·²çŸ¥çš„æœ‰æ•ˆç–略(利用)。在物ç†é—®é¢˜ä¸ï¼Œè¿™ä¸ªé—®é¢˜å°¤å…¶æ£˜æ‰‹ï¼Œå› 为错误的å°è¯•å¯èƒ½çœ‹èµ·æ¥æ¯«æ— 进展。
- **长程ä¾èµ–**:许多物ç†é—®é¢˜éœ€è¦å¤šæ¥æŽ¨ç†ã€‚模型å¯èƒ½éœ€è¦å…ˆè®¡ç®—ä¸é—´é‡ï¼Œå†ä½¿ç”¨è¿™äº›ç»“æžœè®¡ç®—æœ€ç»ˆç”æ¡ˆã€‚è¿™è¦æ±‚模型具备长程记忆和规划能力。
### é›¶æ ·æœ¬è¿ç§»
æœ€ä»¤äººæƒŠè®¶çš„ç»“æžœæ˜¯é›¶æ ·æœ¬è¿ç§»ã€‚è¿™æ„味ç€ä»€ä¹ˆï¼Ÿ
æƒ³è±¡ä¸€ä¸‹ï¼Œä½ å¦ä¹ 骑自行车时,先在虚拟现实模拟器ä¸ç»ƒä¹ 。模拟器的物ç†å¯èƒ½ä¸ŽçœŸå®žä¸–界略有ä¸åŒâ€”—自行车的é‡é‡ã€è½®èƒŽçš„æ‘©æ“¦åŠ›ã€åœ°é¢çš„ä¸å¹³æ•´ç¨‹åº¦ã€‚ä¼ ç»Ÿä¸Šï¼Œä½ éœ€è¦åœ¨çœŸå®žä¸–界ä¸å†ç»ƒä¹ 一段时间æ¥"适应"这些差异。
ä½†è¿™é¡¹ç ”ç©¶æ˜¾ç¤ºï¼Œå¦‚æžœåœ¨æ¨¡æ‹Ÿè®ç»ƒæ—¶ä½¿ç”¨äº†è¶³å¤Ÿçš„domain randomization,模型å¯ä»¥ç›´æŽ¥è¿ç§»åˆ°çœŸå®žä¸–ç•Œï¼Œæ— éœ€é¢å¤–适应。这暗示了物ç†è§„律的一ç§**深层ä¸å˜æ€§**â€”â€”æ— è®ºå…·ä½“å‚æ•°å¦‚何å˜åŒ–ï¼Œåº•å±‚çš„å› æžœç»“æž„æ˜¯ç¨³å®šçš„ã€‚
---
## 💡 费曼å¼çš„忀
让我用费曼的视角æ¥å®¡è§†è¿™é¡¹å·¥ä½œã€‚
### 这是真æ£çš„ç†è§£å—?
首先,那个关键问题:AI真的"ç†è§£"物ç†å—ï¼Ÿè¿˜æ˜¯å®ƒåªæ˜¯å¦ä¼šäº†æŸç§å¤æ‚的模å¼åŒ¹é…?
巴西的å¦ç”Ÿèƒ½èƒŒè¯µæ‰€æœ‰å…¬å¼ï¼Œä½†æ¢ä¸€ä¸ªé—®æ³•å°±ä¸ä¼šã€‚AI是å¦ä¹Ÿå¦‚æ¤ï¼Ÿ
è¿™é¡¹ç ”ç©¶ç»™å‡ºçš„è¯æ®æ˜¯ï¼šzero-shotè¿ç§»ã€‚如果AIåªæ˜¯åœ¨è®°å¿†ç‰¹å®šé—®é¢˜çš„解法,它ä¸å¯èƒ½åœ¨ä»Žæœªè§è¿‡çš„IPhOé—®é¢˜ä¸Šè¡¨çŽ°æ›´å¥½ã€‚ä½†äº‹å®žæ˜¯ï¼Œå®ƒç¡®å®žè¡¨çŽ°æ›´å¥½äº†ã€‚è¿™æš—ç¤ºç€æŸç§æ·±å±‚çš„ã€å¯è¿ç§»çš„"ç†è§£"â€”â€”ä¸æ˜¯å¯¹ç‰¹å®šé—®é¢˜çš„记忆,而是对物ç†è§„律的抽象把æ¡ã€‚
但这够了å—?ä¸å¤Ÿã€‚真æ£çš„ç†è§£è¿˜åŒ…括**åˆ›é€ æ€§åº”ç”¨**——用物ç†åŽŸç†è§£å†³ä»Žæœªè§è¿‡çš„问题,甚至å‘现新的物ç†çŽ°è±¡ã€‚AI还没有åšåˆ°è¿™ç‚¹ã€‚ä½†è¿™é¡¹ç ”ç©¶æŒ‡æ˜Žäº†ä¸€æ¡å¯èƒ½çš„路径。
### 货物崇拜检测
让我检查一下有没有货物崇拜的迹象。
什么是货物崇拜?二战期间,å—太平洋岛民看到美军建了机场就有飞机æ¥é€ç‰©èµ„。美军走åŽï¼Œå²›æ°‘也用竹å建了"机场"ã€ç”¨æ¤°å壳åšäº†"耳机"ã€æœ‰äººç«™åœ¨"è·‘é“"æ—æŒ¥æ——。一切看起æ¥éƒ½å¯¹ï¼Œä½†é£žæœºä¸ä¼šæ¥ã€‚
åœ¨è¿™é¡¹ç ”ç©¶ä¸ï¼Œæœ‰æ²¡æœ‰å¯èƒ½å‡ºçް"ç«¹åæœºåœº"?
å¯èƒ½çš„å±é™©ï¼šå¦‚æžœåˆæˆåœºæ™¯çš„设计ä¸å¤Ÿå¤šæ ·åŒ–,模型å¯èƒ½åªæ˜¯å¦ä¼šäº†æŸç§"解题套路"ï¼Œè€Œä¸æ˜¯çœŸæ£çš„物ç†ç†è§£ã€‚比如,它å¯èƒ½å¦ä¼š"看到斜é¢å°±ç”¨$mg\sin\theta$"ï¼Œè€Œä¸æ˜¯çœŸæ£ç†è§£åŠ›æ˜¯å¦‚ä½•ä½œç”¨çš„ã€‚
ä½†ç ”ç©¶è€…ä»¬ä¼¼ä¹Žæ„è¯†åˆ°äº†è¿™ä¸€ç‚¹ã€‚éšæœºåœºæ™¯ç”Ÿæˆå’Œdomain randomizationæ£æ˜¯ä¸ºäº†é¿å…è¿™ç§æ»è®°ç¡¬èƒŒã€‚é€šè¿‡è®©æ¨¡åž‹æŽ¥è§¦æ— é™å˜åŒ–的场景,迫使它å¦åˆ°æ›´æ·±å±‚çš„ã€å¯è¿ç§»çš„规律。
### 演示 > 论è¯
æˆ‘æœ€å–œæ¬¢è¿™é¡¹ç ”ç©¶çš„ä¸€ç‚¹æ˜¯ï¼Œå®ƒå¯ä»¥ç”¨ä¸€ä¸ªç®€å•的演示æ¥è¯´æ˜Žæ ¸å¿ƒæ€æƒ³ï¼š
"看,我们让AIåœ¨ä¸€ä¸ªè™šæ‹Ÿä¸–ç•Œé‡ŒçŽ©äº†å‡ ç™¾ä¸‡æ¬¡ç‰©ç†å®žéªŒï¼Œç„¶åŽå®ƒå°±èƒ½è§£çœŸæ£çš„物ç†ç«žèµ›é¢˜äº†ã€‚"
ä¸éœ€è¦å¤æ‚çš„ç†è®ºè®ºè¯ã€‚结果本身就有说æœåŠ›ã€‚
---
## 🌊 更大的图景
让我退一æ¥ï¼Œçœ‹çœ‹è¿™é¡¹å·¥ä½œåœ¨æ›´å¤§çš„AI和科å¦å›¾æ™¯ä¸çš„ä½ç½®ã€‚
### AI推ç†èƒ½åŠ›çš„æ¼”è¿›
è¿‡åŽ»å‡ å¹´ï¼Œæˆ‘ä»¬è§è¯äº†AI推ç†èƒ½åŠ›çš„é£žé€Ÿå‘展:
- **2020å¹´å·¦å³**:GPT-3展示了惊人的è¯è¨€ç”Ÿæˆèƒ½åŠ›ï¼Œä½†åœ¨æŽ¨ç†ä»»åŠ¡ä¸Šè¿˜å¾ˆå¼±ã€‚
- **2022-2023**:Chain-of-Thought prompting让模型å¦ä¼š"ä¸€æ¥æ¥æ€è€ƒ",推ç†èƒ½åЛ大幅æå‡ã€‚
- **2024**:DeepSeek-R1通过纯强化å¦ä¹ ,自å‘å‘å±•å‡ºå¤æ‚的推ç†ç–略,包括自我验è¯å’Œåæ€ã€‚
- **2025**:åƒP1è¿™æ ·çš„æ¨¡åž‹åœ¨å›½é™…ç‰©ç†å¥¥æž—匹克上获得金牌,展示了AIåœ¨ç§‘å¦æŽ¨ç†ä¸Šçš„æ½œåŠ›ã€‚
è¿™é¡¹ç ”ç©¶æ˜¯è¿™æ¡æ¼”进路线上的é‡è¦ä¸€æ¥ã€‚å®ƒå±•ç¤ºäº†ä¸€ç§æ–°çš„è®ç»ƒèŒƒå¼ï¼š**䏿˜¯ä»Žäººç±»æ•°æ®ä¸å¦ä¹ ,而是从与模拟世界的互动ä¸å¦ä¹ 。**
### ç‰©ç†æ¨¡æ‹Ÿå™¨çš„角色
ç‰©ç†æ¨¡æ‹Ÿå™¨åœ¨è¿™é¡¹ç ”ç©¶ä¸æ‰®æ¼”了一个关键但常被忽视的角色。
过去,模拟器主è¦ç”¨äºŽæœºå™¨äººå¦å’Œå›¾å½¢å¦ã€‚机器人å¦å®¶ç”¨æ¨¡æ‹Ÿå™¨è®ç»ƒæŽ§åˆ¶ç–略,然åŽè¿ç§»åˆ°çœŸå®žæœºå™¨äººï¼›å›¾å½¢å¦å®¶ç”¨æ¨¡æ‹Ÿå™¨åˆ›é€ 逼真的动画。
ä½†è¿™é¡¹ç ”ç©¶å¼€è¾Ÿäº†ä¸€ä¸ªæ–°çš„åº”ç”¨åœºæ™¯ï¼š**æ¨¡æ‹Ÿå™¨ä½œä¸ºçŸ¥è¯†æ¥æº**ã€‚ç‰©ç†æ¨¡æ‹Ÿå™¨ä¸ä»…仅是"近似真实世界",它本身就是物ç†å®šå¾‹çš„ç¼–ç 。通过在模拟器ä¸åšå®žéªŒï¼ŒAIå¯ä»¥ç›´æŽ¥æŽ¥è§¦åˆ°è¿™äº›å®šå¾‹çš„è¿ä½œã€‚
这让我想起费曼的一å¥è¯ï¼š"大自然是动æ€çš„ä¸€å›¢ä¸œè¥¿â€”â€”å¦‚æžœä½ çœ‹å¾—å¯¹çš„è¯ã€‚"ç‰©ç†æ¨¡æ‹Ÿå™¨è®©AI能够"看对"——在控制的环境ä¸è§‚察物ç†å®šå¾‹çš„动æ€è¿ä½œã€‚
### 对AI安全的å¯ç¤º
还有一个角度值得æ€è€ƒï¼šAI安全。
如果AI能够从与虚拟世界的互动ä¸å¦ä¹ 物ç†è§„律,那么它是å¦ä¹Ÿèƒ½å¦ä¹ 其他类型的规律?比如社会规律ã€ç»æµŽè§„律ã€ç”šè‡³äººç±»è¡Œä¸ºçš„æ¨¡å¼ï¼Ÿ
这既是机会也是风险。机会在于,我们å¯ä»¥ç”¨æ¨¡æ‹Ÿå™¨å®‰å…¨åœ°è®ç»ƒAI,测试它的行为,确ä¿å®ƒå¦ä¼šçš„æ˜¯æˆ‘们想è¦çš„规律。风险在于,如果模拟器本身有å差,AI会å¦åˆ°é”™è¯¯çš„规律。
想象一下,如果è®ç»ƒAI的模拟器å‡è®¾"äººç±»æ€»æ˜¯ç†æ€§çš„",那么AI在真实世界ä¸ä¼šåšå‡ºç¾é𾿀§çš„决ç–ã€‚è¿™å°±æ˜¯ä¸ºä»€ä¹ˆæ¨¡æ‹Ÿå™¨çš„è®¾è®¡éœ€è¦æžå…¶è°¨æ…Žã€‚
---
## 🚀 未æ¥å±•望
è¿™é¡¹ç ”ç©¶å¼€è¾Ÿäº†å“ªäº›å¯èƒ½æ€§ï¼Ÿ
### 更丰富的模拟环境
当å‰çš„ç‰©ç†æ¨¡æ‹Ÿå™¨ä¸»è¦å¤„ç†åˆšä½“动力å¦â€”—å°çƒæ»šåЍã€å¼¹ç°§æŒ¯åŠ¨ã€æ‘†é”¤æ‘†åŠ¨ã€‚ä½†çœŸå®žçš„ç‰©ç†ä¸–ç•Œè¿œæ¯”è¿™å¤æ‚:
- **软体物ç†**:布料如何褶皱,肌肉如何收缩,细胞如何å˜å½¢ã€‚
- **æµä½“动力å¦**:水如何æµåŠ¨ï¼Œç©ºæ°”å¦‚ä½•æ¹æµï¼Œç«ç„°å¦‚ä½•ä¼ æ’。
- **电ç£åœº**:电è·å¦‚ä½•åˆ†å¸ƒï¼Œç”µç£æ³¢å¦‚ä½•ä¼ æ’,电路如何å“应。
- **é‡å效应**:在微观尺度上,ç»å…¸ç‰©ç†å¤±æ•ˆï¼Œé‡å规律接管。
éšç€æ¨¡æ‹Ÿå™¨èƒ½åŠ›çš„æå‡ï¼ŒAI能够å¦ä¹ 的物ç†é¢†åŸŸä¹Ÿä¼šæ‰©å±•。也许有一天,AI能够ç†è§£ä»Žé‡å场论到宇宙å¦çš„一切。
### è·¨å¦ç§‘的推ç†
物ç†ä¸æ˜¯å¤ç«‹çš„。它与化å¦ã€ç”Ÿç‰©ã€åœ°çƒç§‘å¦ç´§å¯†ç›¸è¿žã€‚
想象一下,一个AIä¸ä»…能解物ç†é¢˜ï¼Œè¿˜èƒ½ç†è§£ç‰©ç†å¦‚何影å“化å¦å应,化å¦å¦‚何支撑生物系统,生物如何改å˜åœ°çƒçŽ¯å¢ƒã€‚è¿™ç§è·¨å¦ç§‘的推ç†èƒ½åŠ›ï¼Œå¯èƒ½æ˜¯è§£å†³æ°”候å˜åŒ–ã€èƒ½æºå±æœºç‰å¤æ‚问题的关键。
### 人机å作的科å¦å‘现
最终的愿景是人机å作的科å¦å‘现。
AI负责在虚拟世界ä¸å¿«é€Ÿç›é€‰å‡è®¾ï¼Œè®¾è®¡å®žéªŒï¼Œåˆ†æžæ•°æ®ã€‚人类科å¦å®¶è´Ÿè´£æå‡ºæ·±åˆ»çš„é—®é¢˜ï¼ŒæŒ‡å¯¼ç ”ç©¶æ–¹å‘,验è¯AIçš„å‘现。
è¿™ç§å作å¯èƒ½æ¯”å•独的人类或å•独的AI都更强大。AIå¯ä»¥å¤„ç†æµ·é‡çš„æ•°æ®å’Œè®¡ç®—,人类æä¾›åˆ›é€ 性和直觉。费曼曾ç»è¯´ï¼š"想象力比知识更é‡è¦ã€‚"ä¹Ÿè®¸æœ€å¥½çš„æœªæ¥æ˜¯ï¼šAIæä¾›çŸ¥è¯†ï¼Œäººç±»æä¾›æƒ³è±¡åŠ›ã€‚
---
## 📠结è¯
让我回到那个浴室里的å°ç”·å©ã€‚
ä»–ç›¯ç€æ°´é¾™å¤´æ»´è½çš„æ°´ç ,问ç€ä¸€ä¸ªæ²¡æœ‰ç”案的问题。他ä¸çŸ¥é“ï¼Œå‡ åƒå¹´å‰çš„é˜¿åŸºç±³å¾·ä¹Ÿåœ¨é—®ç±»ä¼¼çš„é—®é¢˜ï¼›å‡ ç™¾å¹´å‰çš„牛顿为了ç†è§£ç±»ä¼¼çš„çŽ°è±¡ï¼Œå‘æ˜Žäº†å¾®ç§¯åˆ†ï¼›å‡ åå¹´å‰çš„è´¹æ›¼ï¼Œç”¨è·¯å¾„ç§¯åˆ†é‡æ–°è¯ 释了é‡å力å¦ã€‚
对世界的 curiosity,是人类最çè´µçš„ç‰¹è´¨ã€‚å®ƒé©±ä½¿æˆ‘ä»¬è§‚å¯Ÿã€æé—®ã€å®žéªŒã€ç†è§£ã€‚
è¿™é¡¹ç ”ç©¶å‘Šè¯‰æˆ‘ä»¬ï¼ŒAI也å¯ä»¥æ‹¥æœ‰è¿™ç§ curiosity——至少在æŸç§ç¨‹åº¦ä¸Šã€‚它å¯ä»¥åœ¨è™šæ‹Ÿä¸–界ä¸"åšå®žéªŒ","观察"物ç†å®šå¾‹çš„è¿ä½œï¼Œ"å¦ä¹ "预测世界的行为。
è¿™æ˜¯ä¸æ˜¯çœŸæ£çš„ç†è§£ï¼Ÿæˆ‘ä¸çŸ¥é“。也许永远ä¸ä¼šæœ‰ä¸€ä¸ªæ˜Žç¡®çš„ç”æ¡ˆã€‚但æ£å¦‚费曼说的:"我能在ä¸ç¡®å®šã€ä¸çŸ¥é“ä¸ç”Ÿæ´»ã€‚我觉得,生活在ä¸çŸ¥é“ä¸ï¼Œæ¯”生活在å¯èƒ½é”™è¯¯çš„ç”æ¡ˆä¸è¦æœ‰è¶£å¾—多。"
é‡è¦çš„䏿˜¯æœ‰æ²¡æœ‰ç»ˆæžç”案,而是æŒç»è¿½é—®çš„过程。AIå¦ä¼šè§£ç‰©ç†å¥¥æž—åŒ¹å…‹é¢˜ï¼Œä¸æ˜¯ç»ˆç‚¹ï¼Œè€Œæ˜¯ä¸€ä¸ªå¼€å§‹â€”—通往更深ç†è§£ã€æ›´å¤šå‘çŽ°ã€æ›´å¥‡å¦™é—®é¢˜çš„开始。
水滴还在è½ä¸‹ã€‚
é—®é¢˜æ˜¯ï¼Œä½ çŽ°åœ¨çœ‹åˆ°äº†ä»€ä¹ˆï¼Ÿ
---
## 📖 å‚考文献
1. Prabhudesai, M., Satpathy, A., & Li, Y. (2026). Solving Physics Olympiad via Reinforcement Learning on Physics Simulators. arXiv:2604.11805 [cs.LG].
2. Guo, D., et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. Nature, 1-10.
3. Zhao, W., Queralta, J.P., & Westerlund, T. (2020). Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a Survey. IEEE Symposium Series on Computational Intelligence (SSCI), 737-744.
4. OpenAI. (2025). Mastering Physics Olympiads with Reinforcement Learning. arXiv:2511.13612 [cs.LG].
5. Chen, Z., et al. (2025). PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving. arXiv:2503.21821 [cs.CL].
6. Sutton, R.S., & Barto, A.G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.
7. Feynman, R.P. (1985). Surely You're Joking, Mr. Feynman! W.W. Norton & Company.
8. Feynman, R.P. (1974). Cargo Cult Science. Caltech Commencement Address.
---
#论文 #arXiv #ç‰©ç† #强化å¦ä¹ #费曼解读 #å°å‡¯
登录åŽå¯å‚与表æ€
讨论回å¤
0 æ¡å›žå¤è¿˜æ²¡æœ‰äººå›žå¤ï¼Œå¿«æ¥å‘è¡¨ä½ çš„çœ‹æ³•å§ï¼
勿ƒ…链接:
AIé”æŽ§ç½‘
|
艮岳网
|
è€è–›ä¸»æœº
|
å£ç¬› - PPT智能讲解
|
æ¥å哥的åšå®¢
|
3R教室