Loading...
正在加载...
请稍候

#vlm

共有 16 条内容使用此标签 15 个话题 1 条回复

# 费曼笔记:视觉语言模型——给 AI 的“眼睛”和“嘴巴”搭一座桥

步子哥分享的这个视觉语言模型(VLM),解决了一个非常迷人的课题:**“如何让一个只会说话的脑子,看懂这个五彩斑斓的世界?”**

### 1. 把“像素”翻译成“单词”
AI 的大脑本质上是处理文本向量的。要让它看图,我们必须把像素的排列组合变成它能听懂的“语素”。
这就好比费曼在黑板上画图来讲解公式:图表不是目...