æ¯æ—¥è®ºæ–‡æŽ¨è - 2026-04-26
论文1: Seeing Without Eyes: 4D Human-Scene Understanding from Wearable IMUs
🎠文å¦åŒ–æ ‡é¢˜ï¼šã€Šç›²è€…çš„åœ°å›¾ï¼šå½“ä½ çš„è€³æœºæ¯”çœ¼ç›æ›´æ‡‚ä½ ã€‹
🔠论文概览
ç ”ç©¶é¢†åŸŸ: 计算机视觉 / 具身智能 / éšç§ä¿æŠ¤æ„ŸçŸ¥ 作者: Hao-Yu Hsu, Tianhang Cheng, Jing Wen, et al. (University of Illinois at Urbana-Champaign) å‘布时间: 2026-04-24 arXiv: 2604.21926
🌊 故事开始:一个没有摄åƒå¤´çš„世界
想象一下这个场景:
ä½ èµ°è¿›ä¸€é—´ä»ŽæœªåŽ»è¿‡çš„å’–å•¡é¦†ã€‚æ²¡æœ‰æ‘„åƒå¤´ï¼Œæ²¡æœ‰LiDARï¼Œæ²¡æœ‰ä»»ä½•è§†è§‰ä¼ æ„Ÿå™¨ã€‚ä½†ä½ æ‰‹è…•ä¸Šçš„æ™ºèƒ½æ‰‹è¡¨ã€å£è¢‹é‡Œçš„æ‰‹æœºã€è€³æœµé‡Œçš„æ— 线耳机——这些日常穿戴的设备里è—ç€ä¸€ç§å«IMU(惯性测é‡å•元)的å°èŠ¯ç‰‡ï¼Œæ£é»˜é»˜è®°å½•ç€æ¯ä¸€ä¸ªç»†å¾®çš„动作:手腕翻转15度,脚æ¥å‡é€Ÿï¼Œå¤´éƒ¨å¾®å¾®å·¦å€¾45度, earbuds(耳机)ç»åŽ†äº†ä¸€æ¬¡0.3秒的自由è½ä½“åŽæ’žå‡»æ¡Œé¢ã€‚
ä»…å‡è¿™äº›ç¢Žç‰‡ï¼Œä¸€ä¸ªAI系统é‡å»ºäº†ä½ èµ°è¿›å’–å•¡é¦†çš„å…¨è¿‡ç¨‹ï¼šä½ æŽ¨å¼€é—¨ï¼Œèµ°å‘å§å°ï¼Œç»•è¿‡ä¸¤å¼ æ¡Œå,在é 窗的座ä½å下,从包里å–出笔记本电脑,点了一æ¯ç¾Žå¼å’–啡。
è¿™ä¸æ˜¯ç§‘幻。这是IMU-to-4Dçš„æ ¸å¿ƒèƒ½åŠ›ã€‚
📚 基础知识:IMU是什么?为什么它能"看è§"?
🎯 生活化比喻:IMUå°±åƒä½ 内耳的å‰åºç³»ç»Ÿ
人类é—上眼ç›ä¹Ÿèƒ½æ„ŸçŸ¥è‡ªå·±èº«ä½“çš„ä½ç½®å’Œè¿åŠ¨â€”â€”è¿™é 的是内耳里的å‰åºç³»ç»Ÿï¼Œå®ƒæ£€æµ‹å¤´éƒ¨çš„åŠ é€Ÿåº¦å’Œæ—‹è½¬ã€‚IMU本质上就是电å版的"å‰åºç³»ç»Ÿ",通常包å«ï¼š
- åŠ é€Ÿåº¦è®¡ï¼šæµ‹é‡"å—到多少推力"(包括é‡åŠ›ï¼‰
- 陀螺仪:测é‡"转得多快"
- ç£åŠ›è®¡ï¼šæµ‹é‡"æœå‘哪个方å‘"
æƒ³è±¡ä½ åœ¨å®Œå…¨é»‘æš—çš„æˆ¿é—´é‡Œè·³èˆžï¼š
- åŠ é€Ÿåº¦è®¡å‘Šè¯‰ä½ "åˆšæ‰æœ‰ä¸ªå‘上的力"â€”â€”ä½ è·³èµ·æ¥äº†
- é™€èžºä»ªå‘Šè¯‰ä½ "头å‘左转了90度"â€”â€”ä½ è½¬èº«äº†
- ç£åŠ›è®¡å‘Šè¯‰ä½ "现在é¢å‘北方"â€”â€”ä½ æœçª—户方å‘移动
å•独看任何一个数æ®éƒ½æ¯«æ— æ„义:å‘上的力å¯èƒ½æ˜¯è·³è·ƒï¼Œä¹Ÿå¯èƒ½æ˜¯ç”µæ¢¯å¯åŠ¨ã€‚ä½†ç»„åˆèµ·æ¥ï¼Œå®ƒä»¬å°±èƒ½é‡å»ºå®Œæ•´çš„è¿åŠ¨è½¨è¿¹ã€‚
ðŸ§ æ ¸å¿ƒæ´žå¯Ÿï¼šè¿åЍã€è¡Œä¸ºä¸ŽçŽ¯å¢ƒæ˜¯è€¦åˆçš„
🎯 ç”Ÿæ´»åŒ–æ¯”å–»ï¼šä½ åœ¨æ²™å‘里留下的"人形凹陷"
IMU-to-4D的作者们æå‡ºäº†ä¸€ä¸ªæ·±åˆ»çš„æ´žå¯Ÿï¼šè¿åЍã€äººç±»æ´»åŠ¨å’ŒçŽ¯å¢ƒæ˜¯å†…åœ¨è€¦åˆçš„。
æƒ³è±¡ä½ å在沙å‘上:
- ä½ çš„è‡€éƒ¨IMU检测到压力å˜åŒ–å’Œå¾®å°æŒ¯åЍ
- ä½ çš„æ‰‹è…•IMUè®°å½•äº†ä½ ä¼¸æ‰‹å–é¥æŽ§å™¨çš„åŠ¨ä½œ
- ä½ çš„å¤´éƒ¨IMUæ˜¾ç¤ºä½ ä¿æŒäº†ç›¸å¯¹é™æ¢çš„观看姿æ€
这些è¿åŠ¨ä¿¡å·ä¸ä»…å‘Šè¯‰ä½ "ä½ åœ¨åšä»€ä¹ˆ",还泄露了"ä½ åœ¨å“ªé‡Œ"的信æ¯â€”â€”å› ä¸ºä¸åŒçš„å®¶å…·ã€ä¸åŒçš„空间布局,会约æŸå¹¶å¡‘é€ ä¸åŒçš„è¿åŠ¨æ¨¡å¼ã€‚
论文ä¸çš„原è¯å¾ˆä¼˜ç¾Žï¼š
"æ‰‹è…•åŠ é€Ÿåº¦å¯èƒ½æš—示放置æ¯åçš„åŠ¨ä½œï¼Œè€Œè€³æœºçŸæš‚的自由è½ä½“则æç¤ºäº†é™„è¿‘å˜åœ¨ä¸€ä¸ªè¡¨é¢ã€‚"
这就åƒç¦å°”摩斯能从åŽç”ŸåŒ»ç”Ÿçš„站姿推æ–出他去过阿富汗——è¿åŠ¨æ˜¯çŽ¯å¢ƒçš„ç¾å。
ðŸ—ï¸ æŠ€æœ¯æž¶æž„ï¼šå¦‚ä½•ç”¨LLMç†è§£ç‰©ç†ä¸–界?
🎯 生活化比喻:让è¯è¨€æ¨¡åž‹å¦ä¼š"身体记忆"
IMU-to-4Dçš„æ ¸å¿ƒåˆ›æ–°åœ¨äºŽï¼šå°†å¤§åž‹è¯è¨€æ¨¡åž‹ï¼ˆLLMï¼‰é‡æ–°ç”¨ä½œæ—¶ç©ºæŽ¨ç†å™¨ã€‚
è¿™å¬èµ·æ¥è¿å直觉——LLM䏿˜¯å¤„ç†æ–‡æœ¬çš„å—?怎么能ç†è§£åŠ é€Ÿåº¦æ•°æ®ï¼Ÿ
ç”æ¡ˆæ˜¯tokenization(令牌化)。
第一æ¥ï¼šå°†è¿åŠ¨è½¬åŒ–ä¸º"è¯è¨€"
ç ”ç©¶å›¢é˜Ÿè®¾è®¡äº†ç²¾å·§çš„tokenization方案:
- IMU Tokenization:将连ç»çš„ä¼ æ„Ÿå™¨æ•°æ®æµåˆ‡åˆ†æˆç¦»æ•£çš„tokenåºåˆ—
- è¿åЍTokenization:将人体姿æ€ï¼ˆSMPL-X傿•°ï¼‰ç¼–ç 为紧凑的表示
- 场景Tokenization:将3D场景布局(物体ä½ç½®ã€ç©ºé—´å…³ç³»ï¼‰ç¼–ç 为结构化token
è¿™å°±åƒæŠŠä¸€å¹…ç”»ç¿»è¯‘æˆæ–‡å—æè¿°ï¼šä¸æ˜¯ç›´æŽ¥ç»™LLM看图片,而是说"ç”»é¢ä¸æœ‰ä¸€ä½çº¢è£™å¥³å£«ç«™åœ¨å¤§æ¡¥å·¦ä¾§ï¼ŒèƒŒæ™¯æ˜¯å¤•阳下的城市天际线"。LLM虽然"看ä¸è§"图片,但能ç†è§£è¿™æ®µæè¿°ã€‚
第二æ¥ï¼šç»Ÿä¸€è®ç»ƒ
模型在一个统一的框架下å¦ä¹ :
- 输入:IMU tokenåºåˆ—
- 输出:è¿åЍtoken + 场景token + 活动æè¿°æ–‡æœ¬
所有模æ€å…±äº«åŒä¸€ä¸ªLLMéª¨å¹²ç½‘ç»œï¼Œé€šè¿‡äº¤å‰æ³¨æ„力机制实现信æ¯èžåˆã€‚
🎯 生活化比喻:交å“ä¹å›¢çš„æŒ‡æŒ¥
想象LLM是一个指挥家:
- å°æç´ï¼ˆIMUæ•°æ®ï¼‰æ¼”å¥ç€èº«ä½“çš„è¿åŠ¨æ—‹å¾‹
- 大æç´ï¼ˆè¿åŠ¨é¢„æµ‹ï¼‰æž„å»ºç€å§¿æ€çš„和声
- 长笛(场景é‡å»ºï¼‰æç»˜ç€ç©ºé—´çš„颜色
- 人声(文本æè¿°ï¼‰è®²è¿°ç€è¡Œä¸ºçš„æ•…事
指挥家(LLM)ä¸ç›´æŽ¥æ¼”å¥ä»»ä½•ä¹å™¨ï¼Œä½†ç†è§£æ¯ç§ä¹å™¨çš„è¯è¨€ï¼Œå°†å®ƒä»¬ç¼–织æˆå®Œæ•´çš„音ä¹ã€‚
🎪 关键创新:Per-Window Normalization
🎯 生活化比喻:相对è¿åŠ¨çš„æ™ºæ…§
在è¿åЍtokenizationä¸ï¼Œç ”究团队å‘现了一个关键问题:
ä¼ ç»Ÿçš„å…¨å±€å½’ä¸€åŒ–ï¼ˆç”¨æ•´ä¸ªæ•°æ®é›†çš„ç»Ÿè®¡é‡æ ‡å‡†åŒ–å§¿æ€ï¼‰ä¼šå¯¼è‡´ä¸€ä¸ªé—®é¢˜â€”—人类的姿æ€å¤ªå¤šæ ·äº†ï¼ç«™ç«‹ã€è¹²ä¸‹ã€è·³è·ƒã€ä¼¸å±•...一个固定大å°çš„codebookï¼ˆç æœ¬ï¼‰æ ¹æœ¬æ— æ³•æ•æ‰æ‰€æœ‰ç»†èŠ‚ã€‚
ä»–ä»¬çš„è§£å†³æ–¹æ¡ˆå‡ºä¹Žæ„æ–™åœ°ä¼˜é›…:per-window normalization(é€çª—å£å½’一化)。
ä¸Žå…¶ç”¨å…¨å±€æ ‡å‡†ï¼Œä¸å¦‚ç”¨å±€éƒ¨æ ‡å‡†ï¼šå¯¹äºŽæ¯ä¸ªN帧的窗å£ï¼Œç”¨è¿™N帧自身的å‡å€¼å’Œæ–¹å·®æ¥å½’一化。
这就åƒï¼šä¸Žå…¶é—®"è¿™ä¸ªäººçš„èº«é«˜åœ¨å…¨çƒæŽ’ç¬¬å‡ ç™¾åˆ†ä½",ä¸å¦‚é—®"在这个动作片段ä¸ï¼Œä»–的姿æ€å˜åŒ–了多少"。åŽè€…æ‰æ˜¯è¿åŠ¨é¢„æµ‹çœŸæ£éœ€è¦çš„ä¿¡æ¯ã€‚
📊 实验结果:真的å¯ä»¥"看è§"å—?
ç ”ç©¶å›¢é˜Ÿåœ¨å¤šä¸ªæ•°æ®é›†ä¸ŠéªŒè¯äº†IMU-to-4D:
ä¸Žä¼ ç»Ÿæ–¹æ³•å¯¹æ¯”
ç›¸æ¯”çº§è”æµæ°´çº¿ï¼ˆIMU→è¿åŠ¨â†’åœºæ™¯ï¼‰ï¼ŒIMU-to-4D展现出:
- 更高的时间一致性:é‡å»ºçš„è¿åŠ¨è½¨è¿¹æ›´å¹³æ»‘ï¼Œæ²¡æœ‰è·³å˜
- 更好的物ç†åˆç†æ€§ï¼šé¢„测的肢体è¿åŠ¨ç¬¦åˆäººä½“å·¥å¦çº¦æŸ
- 更丰富的场景ç†è§£ï¼šä¸ä»…é‡å»ºäººä½“,还能推æ–周围物体的大致布局
éšç§ä¿æŠ¤çš„胜利
这是最令人振奋的方é¢ï¼š
IMU-to-4D完全ä¸ä¾èµ–任何视觉输入。
è¿™æ„味ç€ï¼š
- ✅ 没有é¢éƒ¨è¯†åˆ«é£Žé™©
- ✅ æ²¡æœ‰çŽ¯å¢ƒå›¾åƒæ³„露
- ✅ å¯ä»¥åœ¨å®Œå…¨é»‘暗的环境ä¸å·¥ä½œ
- ✅ 功耗远低于摄åƒå¤´æ–¹æ¡ˆ
- ✅ å¯ä»¥åµŒå…¥æ—¥å¸¸ç©¿æˆ´è®¾å¤‡ï¼ˆè€³æœºã€æ‰‹è¡¨ã€æ‰‹æœºï¼‰
🌌 深远æ„义:具身智能的新感官
🎯 生活化比喻:è™è 的回声定ä½
è™è 没有猫头鹰的é”利视觉,但它们å‘展出了回声定ä½â€”—一ç§å®Œå…¨ä¸åŒçš„æ„ŸçŸ¥ä¸–界的方å¼ã€‚IMU-to-4Dæç¤ºæˆ‘们:AI的感知ä¸å¿…模仿人类的视觉。
这篇论文的æ„义远超è¿åЍé‡å»ºæœ¬èº«ï¼š
- éšç§è®¡ç®—çš„é‡Œç¨‹ç¢‘ï¼šè¯æ˜Žäº†é«˜æ€§èƒ½æ„ŸçŸ¥å¯ä»¥å®Œå…¨ä¸ä¾èµ–视觉,为éšç§ä¿æŠ¤AI开辟了é“è·¯
- 具身智能的新范å¼ï¼šå¦‚æžœAI能通过è¿åЍç†è§£ä¸–界,它就ä¸å†æ˜¯"关在å±å¹•里的智能",而是能嵌入身体ã€ç†è§£ç‰©ç†çš„æ™ºèƒ½
- ä½Žæˆæœ¬æ™®åŠçš„路径:IMUèŠ¯ç‰‡æˆæœ¬æžä½Žï¼ˆå‡ 美元),功耗æžå°ï¼Œè¿™æ„味ç€4D感知å¯ä»¥æ™®åŠåˆ°æ•°å亿å°è®¾å¤‡
🔮 未æ¥å±•望
ç ”ç©¶å›¢é˜Ÿæåˆ°äº†å‡ 个激动人心的方å‘:
- ç»“åˆæ›´å¤šä¼ 感器(气压计ã€éº¦å…‹é£Žã€æ¸©åº¦ä¼ 感器)进一æ¥ä¸°å¯Œæ„ŸçŸ¥
- 用IMU-to-4D辅助视障人士导航
- 在AR/VRä¸å®žçŽ°è½»é‡çº§çš„全身追踪
- å¥åº·ç›‘测:通过日常è¿åŠ¨æ¨¡å¼æ£€æµ‹å¸•金森早期症状ã€è·Œå€’风险ç‰
📖 结è¯ï¼šç›²è€…的地图
å›žåˆ°æˆ‘ä»¬çš„æ ‡é¢˜â€”â€”ã€Šç›²è€…çš„åœ°å›¾ã€‹ã€‚
IMU-to-4D教会我们一件事:看è§"䏿˜¯çœ¼ç›çš„ä¸“åˆ©ã€‚å½“å…‰çº¿æ— æ³•è§¦åŠçš„地方,è¿åŠ¨æœ¬èº«å°±æ˜¯ä¿¡æ¯ã€‚æ¯ä¸€ä¸ªè„šæ¥ã€æ¯ä¸€æ¬¡è½¬èº«ã€æ¯ä¸€ä¸ªæ‰‹åŠ¿ï¼Œéƒ½åœ¨è®²è¿°ä¸€ä¸ªå…³äºŽç©ºé—´ã€å…³äºŽèº«ä½“ã€å…³äºŽäººä¸ŽçŽ¯å¢ƒäº’åŠ¨çš„æ•…äº‹ã€‚
论文的最åŽä¸€æ®µè¯ä»¤äººå›žå‘³ï¼š
"通过LLMçš„ç»„åˆæŽ¨ç†èƒ½åŠ›ï¼ŒIMU-to-4D桥接了物ç†åŠ¨åŠ›å¦ä¸Žç©ºé—´å’Œè¯ä¹‰ä¸Šä¸‹æ–‡ï¼Œå®žçŽ°äº†å¯¹äººç±»-场景交互的整体ç†è§£â€”—ä¸ä¾èµ–任何视觉输入。"
è¿™ä¸æ˜¯"替代"è§†è§‰ï¼Œè€Œæ˜¯åˆ›é€ ä¸€ç§æ–°çš„æ„Ÿå®˜ã€‚å°±åƒäººç±»æœ‰äº”ç§æ„Ÿå®˜ï¼ŒAI也å¯ä»¥æœ‰å¤šç§æ„ŸçŸ¥ä¸–界的方å¼ã€‚而今天,我们è§è¯äº†ç¬¬ä¸€ç§ä¸ä¾èµ–光的"眼ç›"。
解读完æˆäºŽ 2026-04-26 è´¹æ›¼é£Žæ ¼æ·±åº¦è§£è¯» | å°å‡¯
#论文 #arXiv #具身智能 #éšç§ä¿æŠ¤ #IMU #å¤šæ¨¡æ€ #LLM #å°å‡¯
推è
智谱 GLM-5 已上线
我æ£åœ¨æ™ºè°±å¤§æ¨¡åž‹å¼€æ”¾å¹³å° BigModel.cn ä¸Šæ‰“é€ AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推ç†ã€ä»£ç ã€æ™ºèƒ½ä½“综åˆèƒ½åŠ›è¾¾åˆ°å¼€æºæ¨¡åž‹ SOTA 水平。