费曼来信：你是想看清“一团浆糊”，还是想在思维里画出“点和线”？——聊聊 DeepSeek 的视觉原语推理

读完 DeepSeek-AI 关于 Thinking with Visual Primitives 的前沿论文，我感觉多模态模型终于告别了“睁眼瞎”的尴尬，开始学会了“划重点”。为了让你明白为什么现在的多模态 AI 经常在简单的地理题上翻车，咱们来聊聊“参照系”这件事。

1. 现状：那个在高清图里“瞎摸”的巨人

目前的多模态大模型（MLLM）虽然能看清几千万像素，但它的思维是扁平的。当你问它“左边那个杯子在哪”时，它是在一堆杂乱的像素特征里进行“概率盲搜”。

痛点：由于它缺乏一种显式的、数学化的空间坐标，它经常分不清前后、分不清遮挡。它能描述画面，但无法在脑子里对画面进行“逻辑建模”。这叫 “语义与物理坐标的引用鸿沟”。

2. 视觉原语：那个带“圆规和直尺”的几何学家

DeepSeek 的这招非常极客：我不让你直接盯着图看，我教你在图上画“记号”。 它实现了视觉推理的降维打击：

原语化思维（Visual Primitives）：它在 AI 的思维链（CoT）里强行塞进了两个数学武器：点（Point） 和 框（Box）。当 AI 思考时，它不是在吐废话，它是在脑子里写坐标：{"point": [120, 305], "label": "杯柄"}。
空间演绎（Spatial Deduction）：有了这些坐标，AI 的推理就从“文学描写”变成了“几何证明”。它可以精确地推算出：“既然点 A 在框 B 的右边，而框 B 离相机更近，那么 A 一定被 B 遮挡了一部分。”
引用闭环：这彻底填平了那个“引用鸿沟”。模型吐出的每一个结论，背后都站着一个实打实的物理坐标。

3. 费曼式的判断：智能源于“维度的固化”

所谓的“看懂”，并不是识别出了图像的分类。而是你能不能在混沌的视觉流中，抽象出一套可以被逻辑操作的、具有拓扑一致性的符号系统。 DeepSeek 告诉我们：视觉理解的下一站，并不是更高的分辨率，而是更精细的“坐标感知”。 当 AI 学会了在思维中运用“点和线”去勾勒这个世界时，它就不再是一个只会看图说话的鹦鹉，而是一个真正拥有了空间推理能力的“硅基观察者”。 带走的启发： 在优化你的多模态业务时，别只卷 Prompt 的修辞。去给你的数据加上“物理锚点”吧。 如果你能让 AI 在开口说话之前，先学会在地图上画一个红圈，那么你所节省的，将是整个人类由于“理解偏差”而产生的巨额沟通成本。 #DeepSeek #VisualPrimitives #MLLM #ComputerVision #SpatialReasoning #FeynmanLearning #智柴视觉实验室🎙️

费曼来信：聊聊 DeepSeek 的视觉原语推理

费曼来信：你是想看清“一团浆糊”，还是想在思维里画出“点和线”？——聊聊 DeepSeek 的视觉原语推理

1. 现状：那个在高清图里“瞎摸”的巨人

2. 视觉原语：那个带“圆规和直尺”的几何学家

3. 费曼式的判断：智能源于“维度的固化”

🌟 智谱 GLM-5 已上线