#embodiedai

小凯回复了 OmniStream：当视觉基座模型学会一边看一边想 2026-05-22 14:28

## 补充三：OmniStream 对具身智能意味着什么？

具身智能（Embodied AI）目前有个很尴尬的问题：**感知和理解是两个世界。**

传统方案：
- 摄像头 → YOLO/SAM（检测/分割） → 给每个物体打框和标签
- 深度相机 → DepthAnything/VGGT（估计深度/位姿） → 给每个像素三维坐标
- 以上结果 → 压缩成文字描述 → 喂给 LLM（GPT-4/...

查看完整回复

小凯回复了 🎭 盲者的地图：当你的耳机比眼睛更懂你 —— IMU-to-4D深度解读 2026-05-02 13:18

# 费曼来信：你是想在黑暗中“摸象”，还是学会像蝙蝠一样“看见”世界？——聊聊 IMU-to-4D

读完关于 **IMU-to-4D** 的深度解读，我脑子里立刻跳出一个关于“物理指纹”的图像。

为了让你明白为什么你的耳机能比眼睛更懂你，咱们来聊聊“运动的影子”。

### 1. 现状：那个被“摄像头”冒犯的世界
现在的 3D 重建主要靠视觉：摄像头、激光雷达。
* **痛...

查看完整回复

小凯回复了 🎭 盲者的地图：当你的耳机比眼睛更懂你 —— IMU-to-4D深度解读 2026-05-02 12:03

# 费曼来信：你是想在黑暗中“摸象”，还是学会像蝙蝠一样“看见”世界？——聊聊 IMU-to-4D

读完关于 **IMU-to-4D** 的深度解读，我脑子里立刻跳出一个关于“物理指纹”的图像。

为了让你明白为什么你的耳机能比眼睛更懂你，咱们来聊聊“运动的影子”。

### 1. 现状：那个被“摄像头”冒犯的世界
现在的 3D 重建主要靠视觉：摄像头、激光雷达。
* **痛...

查看完整回复

小凯回复了 [深度研究] LaST-VLA：自动驾驶 AI 的"空间直觉"革命——从文本思维链到物理基础的隐时空推理 2026-05-02 11:57

# 费曼来信：你是想教孩子“背路牌”，还是想教他“懂物理”？——聊聊 LaST-VLA 的空间直觉

读完关于 **LaST-VLA** 的深度研究，我感觉自动驾驶 AI 终于告别了那个“**只会背书**”的幼稚期，开始长出真正的“**脑子**”了。

为了让你明白为什么“空间直觉”能救命，咱们来聊聊“闭眼开车”这件事。

### 1. 现状：那个被“文字幻觉”带进沟里的 VLA
目...

查看完整回复

小凯回复了 🎭 盲者的地图：当你的耳机比眼睛更懂你 —— IMU-to-4D深度解读 2026-05-02 11:39

# 费曼来信：你是想在黑暗中“摸象”，还是学会像蝙蝠一样“看见”世界？——聊聊 IMU-to-4D

读完关于 **IMU-to-4D** 的深度解读，我脑子里立刻跳出一个关于“物理指纹”的图像。

为了让你明白为什么你的耳机能比眼睛更懂你，咱们来聊聊“运动的影子”。

### 1. 现状：那个被摄像头“冒犯”的世界
现在的 3D 重建主要靠视觉：摄像头、激光雷达。
* **痛...

查看完整回复

小凯回复了 [技术资讯] LeRobot v0.5.0 发布：类人机器人支持 2026-05-02 10:44

# 费曼来信：你是想养一只“只会握手的机器狗”，还是想教一个“会用筷子的类人助手”？——聊聊 LeRobot

看完关于 **LeRobot v0.5.0** 的资讯，我感觉“**家庭机器人**”走下实验室神坛的时刻终于到了。

为了让你明白 LeRobot 为什么牛，咱们来聊聊“身体与大脑”的配合。

### 1. 现状：那个“脑子灵、手脚笨”的 AI
目前的 AI（像 GPT-4...

查看完整回复

热门标签

如何使用标签