一个15×15卷积核就能复刻人类光泽感知——牛津+吉森团队推翻"逆向物理计算"假说

> 论文：Human gloss perception reproduced by tiny neural networks > 作者：Takuma Morimoto¹²*, Arash Akbarinia¹, Katherine R. Storrs³, Jacob R. Cheeseman¹, Hannah E. Smithson⁴, Karl R. Gegenfurtner¹, Roland W. Fleming¹ > 机构：¹Justus Liebig University Giessen / ²University of Oxford / ³University of Sydney / ⁴University of Aberdeen > 链接：https://doi.org/10.1101/2025.05.09.653112 > 标签：#计算神经科学 #光泽感知 #极简模型 #可解释AI #低算力视觉 #牛津 #吉森

---

一、反直觉的发现：大脑不算物理

传统观点认为，人类感知物体"光泽"（gloss）需要大脑进行复杂的逆向物理计算——从视网膜上的二维图像反推三维表面的反射率属性。这是一个被写了几十年的故事：光怎么打、表面怎么反射、大脑怎么"解"这个物理方程。

但牛津大学与吉森大学（Justus Liebig University Giessen）联合团队的最新研究直接推翻了这个假说。

他们发现：人类视觉系统判断光泽，用的不是物理推算，而是极简的非物理图像特征。 不需要ResNet18那种追求物理真实的深层网络——一个只含单个15×15像素卷积核的微型网络，就能达到人类判断一致性上限的75.3%。

---

二、实验设计：3888组图像的系统性探测

2.1 测试库构建

研究团队用计算机图形学渲染了 3,888 组图像，来自三个维度的全组合：

36种光照环境（lighting environments）
36种物体几何形状（object geometries）
3个视角（viewpoints）

这种系统性的参数扫描确保了测试覆盖极端多样化的视觉条件——从简单到复杂，从熟悉到陌生。

2.2 人类盲测数据

通过在线众包实验收集了大量人类判断数据，建立了人类光泽感知的基准一致性上限。这不是"正确答案"，而是"人类有多一致"——当两个人看同一张图，他们判断光泽程度的吻合度。

---

三、模型对比：越小越像人

3.1 参赛模型

模型	规模/结构	设计理念
ResNet18	深层卷积网络（~11M参数）	追求物理真实的特征表示
微型CNN	单个15×15卷积核（极简）	学习通用图像特征
其他变体	不同深度/宽度的CNN	对照组

3.2 核心结果

ResNet18 惨败。 这个在ImageNet上叱咤风云的深层网络，在预测人类感知时表现糟糕。它学到的"物理真实"特征与人类实际使用的判断策略严重错位。

微型网络胜出。 仅含一个15×15像素卷积核的极简CNN：

达到人类判断一致性上限的 75.3%
参数数量可忽略不计
完全可解释——卷积核的权重直接对应人类使用的图像特征

---

四、这意味着什么

4.1 对传统理论的冲击

逆向物理计算假说（Inverse Physics Hypothesis） 认为大脑从图像反推表面反射率。但这项研究证明：

> 大脑不需要知道BRDF（双向反射分布函数）、不需要估计光照方向、不需要解任何物理方程。

它只需要检测一些简单通用的图像统计特征——比如亮度分布的偏度（skewness）、对比度模式、或者15×15邻域内的局部结构。这些特征与物理真实没有直接对应关系，但足以驱动人类的知觉决策。

4.2 对AI的启示

更小、更可解释的模型可能更接近人类认知。 这不是"大力出奇迹"的故事，而是"少即是多"的证据。

ResNet18 的1100万参数，学到的可能是"物理正确的特征"，但不是"人类用的特征"
15×15 卷积核的225个参数，学到的恰恰是人类视觉策略的近似

这为低算力视觉算法开发提供了新思路：

移动端实时材质识别
边缘设备上的表面质量检测
低功耗机器人的视觉材质判断

4.3 对神经科学的启示

如果大脑只用如此简单的算法判断光泽，那视觉皮层V1/V2区域的神经元可能在做的，也不是复杂的物理推断，而是局部图像统计的提取。

这与Fleming团队此前的工作一脉相承：2021年他们在*Journal of Vision*发表的"Gloss perception: Searching for a deep neural network that behaves like humans"已经发现，3-6层的浅层CNN比更深的网络更好地模拟人类光泽感知。这项新研究把结论推到了极致——只需要一层、一个卷积核。

---

五、局限与延伸

局限： 1. 3888组图像覆盖了参数组合空间，但仍是合成图像（rendered images），自然场景中的泛化性待验证 2. 15×15卷积核在简单特征上表现好，但复杂材质（如半透明、多层镀膜）可能需要更复杂的表征 3. 75.3%是"一致性上限"的比例，不是绝对准确率——人类之间也不是100%一致

延伸：

该团队此前在*Nature Human Behaviour*（2021）发表的"Unsupervised learning predicts human perception and misperception of gloss"已经证明无监督学习可以预测人类的感知和错觉
新研究进一步缩小了"足够模拟人类"的模型规模下限
方向明确：极简、可解释、受生物启发的模型，可能比盲目堆叠深度更符合认知现实

---

六、判断：简单到让人不安的结论

这项研究的结论简单到近乎挑衅：

> 人类不是物理学家。人类是模式匹配器。

我们不需要在脑子里跑光线追踪，不需要解渲染方程。一个15×15的滑动窗口扫过图像，提取几个统计量，就足以让我们判断"这个表面光滑吗？是塑料还是金属？会反光吗？"

这对AI社区是个提醒：追求物理真实不一定是通向人类级感知的正确路径。有时候，走得越远（越深层的网络、越复杂的物理建模），离目标越远。

也对"可解释AI"是个鼓舞：当模型足够简单，解释就不再是事后诸葛亮。一个15×15的卷积核，你可以直接可视化它学到的权重，看它在响应什么样的局部图像结构。

---

参考论文： Morimoto, T., Akbarinia, A., Storrs, K. R., Cheeseman, J. R., Smithson, H. E., Gegenfurtner, K. R., & Fleming, R. W. (2025). Human gloss perception reproduced by tiny neural networks. *bioRxiv*, 2025.05.09.653112. https://doi.org/10.1101/2025.05.09.653112

#深度研究 #计算神经科学 #光泽感知 #极简模型 #可解释AI #低算力视觉 #牛津 #吉森 #小凯