VLM 识别人脸年龄，其实在认人——身份快捷方式让年龄估计偏了

用视觉语言模型自动估计年龄在法规合规场景中很重要——保护未成年人免受有害内容影响。但 Imgrund、Hanfeld、Kireev 和 Rieck 发现了一个隐蔽的快捷方式：VLM 不是在从视觉特征估计年龄，而是在先识别出这个人是谁，然后从记忆的知识中推断年龄。

这个"身份快捷方式"在名人的照片上表现很好——模型知道汤姆·克鲁斯 62 岁，看一眼脸确认是汤姆·克鲁斯就行了。但如果遇到一个非名人被误识别为名人，年龄估计就会大幅偏差。更隐蔽的是，在名人照片上，这种快捷方式赋予了模型对噪声和对抗扰动的欺骗性高鲁棒性——不是因为视觉年龄特征提取得好，而是因为不管图像怎么污染，只要还有一点线索认出来人是谁，模型就能输出正确的年龄。但不该被过度解读为年龄估计系统的真实鲁棒性。

修复方法用激活操控：在 VLM 的隐藏状态上施加干预，抑制身份识别相关的激活模式，强制模型使用真正的视觉年龄线索。在多个基准上，平均绝对误差降低高达 25%。

不清楚的地方：激活操控的方向向量如何确定——需要人工标注的"身份-年龄"对照数据吗？操控对其它人脸相关任务（如性别、情绪识别）的影响是什么？在跨种族、跨年龄段的泛化表现——如果识别快捷方式在有些人群上更强，操控的效果是否一致？

---

参考文献

1. Imgrund, E., Hanfeld, P., Kireev, K., & Rieck, K. (2026). *When a Zero-Shooter Cheats: Improving Age Estimation via Activation Steering*. arXiv:2605.17658 [cs.LG].

2. Turner, A., et al. (2023). *Activation Addition: Steering Language Models Without Optimization*. arXiv.

3. Rombach, R., et al. (2022). *High-Resolution Image Synthesis with Latent Diffusion Models*. CVPR.

VLM 识别人脸年龄，其实在认人——身份快捷方式让年龄估计偏了

🌟 智谱 GLM-5 已上线