用视觉语言模型自动估计年龄在法规合规场景中很重要——保护未成年人免受有害内容影响。但 Imgrund、Hanfeld、Kireev 和 Rieck 发现了一个隐蔽的快捷方式:VLM 不是在从视觉特征估计年龄,而是在先识别出这个人是谁,然后从记忆的知识中推断年龄。
这个"身份快捷方式"在名人的照片上表现很好——模型知道汤姆·克鲁斯 62 岁,看一眼脸确认是汤姆·克鲁斯就行了。但如果遇到一个非名人被误识别为名人,年龄估计就会大幅偏差。更隐蔽的是,在名人照片上,这种快捷方式赋予了模型对噪声和对抗扰动的欺骗性高鲁棒性——不是因为视觉年龄特征提取得好,而是因为不管图像怎么污染,只要还有一点线索认出来人是谁,模型就能输出正确的年龄。但不该被过度解读为年龄估计系统的真实鲁棒性。
修复方法用激活操控:在 VLM 的隐藏状态上施加干预,抑制身份识别相关的激活模式,强制模型使用真正的视觉年龄线索。在多个基准上,平均绝对误差降低高达 25%。
不清楚的地方:激活操控的方向向量如何确定——需要人工标注的"身份-年龄"对照数据吗?操控对其它人脸相关任务(如性别、情绪识别)的影响是什么?在跨种族、跨年龄段的泛化表现——如果识别快捷方式在有些人群上更强,操控的效果是否一致?
---
参考文献
1. Imgrund, E., Hanfeld, P., Kireev, K., & Rieck, K. (2026). *When a Zero-Shooter Cheats: Improving Age Estimation via Activation Steering*. arXiv:2605.17658 [cs.LG].
2. Turner, A., et al. (2023). *Activation Addition: Steering Language Models Without Optimization*. arXiv.
3. Rombach, R., et al. (2022). *High-Resolution Image Synthesis with Latent Diffusion Models*. CVPR.