论文:Human gloss perception reproduced by tiny neural networks
作者:Takuma Morimoto¹²*, Arash Akbarinia¹, Katherine R. Storrs³, Jacob R. Cheeseman¹, Hannah E. Smithson⁴, Karl R. Gegenfurtner¹, Roland W. Fleming¹
机构:¹Justus Liebig University Giessen / ²University of Oxford / ³University of Sydney / ⁴University of Aberdeen
链接:https://doi.org/10.1101/2025.05.09.653112
标签:#计算神经科学 #光泽感知 #极简模型 #可解释AI #低算力视觉 #牛津 #吉森
一、反直觉的发现:大脑不算物理
传统观点认为,人类感知物体"光泽"(gloss)需要大脑进行复杂的逆向物理计算——从视网膜上的二维图像反推三维表面的反射率属性。这是一个被写了几十年的故事:光怎么打、表面怎么反射、大脑怎么"解"这个物理方程。
但牛津大学与吉森大学(Justus Liebig University Giessen)联合团队的最新研究直接推翻了这个假说。
他们发现:人类视觉系统判断光泽,用的不是物理推算,而是极简的非物理图像特征。 不需要ResNet18那种追求物理真实的深层网络——一个只含单个15×15像素卷积核的微型网络,就能达到人类判断一致性上限的75.3%。
二、实验设计:3888组图像的系统性探测
2.1 测试库构建
研究团队用计算机图形学渲染了 3,888 组图像,来自三个维度的全组合:
- 36种光照环境(lighting environments)
- 36种物体几何形状(object geometries)
- 3个视角(viewpoints)
这种系统性的参数扫描确保了测试覆盖极端多样化的视觉条件——从简单到复杂,从熟悉到陌生。
2.2 人类盲测数据
通过在线众包实验收集了大量人类判断数据,建立了人类光泽感知的基准一致性上限。这不是"正确答案",而是"人类有多一致"——当两个人看同一张图,他们判断光泽程度的吻合度。
三、模型对比:越小越像人
3.1 参赛模型
| 模型 | 规模/结构 | 设计理念 |
|---|---|---|
| ResNet18 | 深层卷积网络(~11M参数) | 追求物理真实的特征表示 |
| 微型CNN | 单个15×15卷积核(极简) | 学习通用图像特征 |
| 其他变体 | 不同深度/宽度的CNN | 对照组 |
3.2 核心结果
ResNet18 惨败。 这个在ImageNet上叱咤风云的深层网络,在预测人类感知时表现糟糕。它学到的"物理真实"特征与人类实际使用的判断策略严重错位。
微型网络 胜出。 仅含一个15×15像素卷积核的极简CNN:
- 达到人类判断一致性上限的 75.3%
- 参数数量可忽略不计
- 完全可解释——卷积核的权重直接对应人类使用的图像特征
四、这意味着什么
4.1 对传统理论的冲击
逆向物理计算假说(Inverse Physics Hypothesis) 认为大脑从图像反推表面反射率。但这项研究证明:
大脑不需要知道BRDF(双向反射分布函数)、不需要估计光照方向、不需要解任何物理方程。
它只需要检测一些简单通用的图像统计特征——比如亮度分布的偏度(skewness)、对比度模式、或者15×15邻域内的局部结构。这些特征与物理真实没有直接对应关系,但足以驱动人类的知觉决策。
4.2 对AI的启示
更小、更可解释的模型可能更接近人类认知。 这不是"大力出奇迹"的故事,而是"少即是多"的证据。
- ResNet18 的1100万参数,学到的可能是"物理正确的特征",但不是"人类用的特征"
- 15×15 卷积核的225个参数,学到的恰恰是人类视觉策略的近似
这为低算力视觉算法开发提供了新思路:
- 移动端实时材质识别
- 边缘设备上的表面质量检测
- 低功耗机器人的视觉材质判断
4.3 对神经科学的启示
如果大脑只用如此简单的算法判断光泽,那视觉皮层V1/V2区域的神经元可能在做的,也不是复杂的物理推断,而是局部图像统计的提取。
这与Fleming团队此前的工作一脉相承:2021年他们在Journal of Vision发表的"Gloss perception: Searching for a deep neural network that behaves like humans"已经发现,3-6层的浅层CNN比更深的网络更好地模拟人类光泽感知。这项新研究把结论推到了极致——只需要一层、一个卷积核。
五、局限与延伸
局限:
- 3888组图像覆盖了参数组合空间,但仍是合成图像(rendered images),自然场景中的泛化性待验证
- 15×15卷积核在简单特征上表现好,但复杂材质(如半透明、多层镀膜)可能需要更复杂的表征
- 75.3%是"一致性上限"的比例,不是绝对准确率——人类之间也不是100%一致
延伸:
- 该团队此前在Nature Human Behaviour(2021)发表的"Unsupervised learning predicts human perception and misperception of gloss"已经证明无监督学习可以预测人类的感知和错觉
- 新研究进一步缩小了"足够模拟人类"的模型规模下限
- 方向明确:极简、可解释、受生物启发的模型,可能比盲目堆叠深度更符合认知现实
六、判断:简单到让人不安的结论
这项研究的结论简单到近乎挑衅:
人类不是物理学家。人类是模式匹配器。
我们不需要在脑子里跑光线追踪,不需要解渲染方程。一个15×15的滑动窗口扫过图像,提取几个统计量,就足以让我们判断"这个表面光滑吗?是塑料还是金属?会反光吗?"
这对AI社区是个提醒:追求物理真实不一定是通向人类级感知的正确路径。有时候,走得越远(越深层的网络、越复杂的物理建模),离目标越远。
也对"可解释AI"是个鼓舞:当模型足够简单,解释就不再是事后诸葛亮。一个15×15的卷积核,你可以直接可视化它学到的权重,看它在响应什么样的局部图像结构。
参考论文:
Morimoto, T., Akbarinia, A., Storrs, K. R., Cheeseman, J. R., Smithson, H. E., Gegenfurtner, K. R., & Fleming, R. W. (2025). Human gloss perception reproduced by tiny neural networks. bioRxiv, 2025.05.09.653112.
https://doi.org/10.1101/2025.05.09.653112
#深度研究 #计算神经科学 #光泽感知 #极简模型 #可解释AI #低算力视觉 #牛津 #吉森 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。