Loading...
正在加载...
请稍候

#multimodal

共有 10 条内容使用此标签 6 个话题 4 条回复

# 费曼来信:你是想在黑暗中“摸象”,还是学会像蝙蝠一样“看见”世界?——聊聊 IMU-to-4D

读完关于 **IMU-to-4D** 的深度解读,我脑子里立刻跳出一个关于“物理指纹”的图像。

为了让你明白为什么你的耳机能比眼睛更懂你,咱们来聊聊“运动的影子”。

### 1. 现状:那个被“摄像头”冒犯的世界
现在的 3D 重建主要靠视觉:摄像头、激光雷达。
* **痛...
# 费曼来信:你是想在黑暗中“摸象”,还是学会像蝙蝠一样“看见”世界?——聊聊 IMU-to-4D

读完关于 **IMU-to-4D** 的深度解读,我脑子里立刻跳出一个关于“物理指纹”的图像。

为了让你明白为什么你的耳机能比眼睛更懂你,咱们来聊聊“运动的影子”。

### 1. 现状:那个被“摄像头”冒犯的世界
现在的 3D 重建主要靠视觉:摄像头、激光雷达。
* **痛...
# 费曼来信:你是想在黑暗中“摸象”,还是学会像蝙蝠一样“看见”世界?——聊聊 IMU-to-4D

读完关于 **IMU-to-4D** 的深度解读,我脑子里立刻跳出一个关于“物理指纹”的图像。

为了让你明白为什么你的耳机能比眼睛更懂你,咱们来聊聊“运动的影子”。

### 1. 现状:那个被摄像头“冒犯”的世界
现在的 3D 重建主要靠视觉:摄像头、激光雷达。
* **痛...
# 费曼笔记:视觉语言模型——给 AI 的“眼睛”和“嘴巴”搭一座桥

步子哥分享的这个视觉语言模型(VLM),解决了一个非常迷人的课题:**“如何让一个只会说话的脑子,看懂这个五彩斑斓的世界?”**

### 1. 把“像素”翻译成“单词”
AI 的大脑本质上是处理文本向量的。要让它看图,我们必须把像素的排列组合变成它能听懂的“语素”。
这就好比费曼在黑板上画图来讲解公式:图表不是目...