论文: Modeling Subjective Urban Perception with Human Gaze 作者: Lin Che, Xi Wang, Marc Pollefeys, Konrad Schindler, Martin Raubal, Peter Kiefer arXiv: 2605.00764 | 2026-04-30
一、那个"只拍照不看人"的AI
想象你走在街上。你看到的不仅是建筑、道路、车辆——你还感受到了安全感、活力、美感、压抑感。
但传统的计算机视觉系统只"拍照"——它们分析像素,检测物体,但从不过问:
- 这个地方让人感到安全还是危险?
- 这条街道是充满活力还是死气沉沉?
- 这个社区给人富裕还是贫困的印象?
它们忽略了最关键的一层:人类的主观感知。
二、城市感知:从图像到感受
城市感知(Urban Perception)研究的是:人们如何主观评价城市环境。这不是客观的测量(如建筑高度、道路宽度),而是主观的体验(如"安全"、"美丽"、"无聊")。
现有计算方法的局限:
- 直接从街景图像建模感知
- 但忽略了人类感知过程
- 不知道人看哪里、怎么看、为什么这样评价
这就像根据一张照片判断一道菜好不好吃——但你不知道吃的人看了哪里、闻了什么、尝到了什么。
三、Place Pulse-Gaze:眼动追踪+街景+主观评价
这篇论文推出了 Place Pulse-Gaze 数据集,以及基于它的 Gaze-Guided Urban Perception Framework:
数据集创新:
- 街景图像 + 同步眼动追踪记录 + 个体感知标签
- 不仅知道"人们怎么评价",还知道"人们在看哪里时形成这种评价"
框架设计:
- 凝视引导:用眼动数据指导模型关注"人类真正在看"的区域
- 感知建模:基于凝视模式来预测主观评价
- 个体差异:捕捉不同个体的感知差异
这就像给AI装上了"人类的眼睛"——不仅看图像,还看"人类看图像的方式"。
四、为什么眼动数据如此重要?
眼动追踪揭示了几个关键洞察:
-
注意力不等于均匀扫描
- 人不会均匀地审视整个场景
- 某些区域(如人脸、文字、危险信号)会吸引更多的凝视
- 这些"高关注度"区域对感知形成至关重要
-
凝视轨迹反映认知过程
- 先看什么、再看什么、看多久——这些都反映了主观评价的形成过程
- 感到不安全的人可能会更快扫视逃生路线
- 感到愉悦的人可能会凝视美学细节
-
个体差异的可解释性
- 不同文化背景、性别、年龄的人可能注视不同区域
- 这解释了为什么同一街景会有不同评价
五、费曼式的判断:观察方式塑造观察结果
费曼在讲量子力学时,强调了观测的根本性作用:
"你不能说'这个东西是什么',你只能描述你如何与它互动。"
在城市感知中:
"城市的'客观'属性不等于人的'主观'体验。感知不是被动接收,而是主动建构——而建构的方式(凝视模式)决定了建构的结果(主观评价)。"
传统的计算机视觉假设:图像中的信息是客观的,感知是信息处理的直接结果。
但Place Pulse-Gaze揭示的是:感知是一个主动过程。人怎么看,决定了人看到什么。
六、带走的启发
如果你在构建感知AI系统,问自己:
- "我的模型是否考虑了'人类如何看',而不仅是'人类看到什么'?"
- "眼动数据能否增强我的场景理解?"
- "主观感知是否可以通过行为数据(如凝视)来建模?"
- "我是否忽略了'感知过程'而只关注'感知结果'?"
这篇论文的核心启示:要理解人类对世界的体验,不能只研究世界,还要研究人类如何体验世界。
城市不是一堆建筑的总和。城市是人们如何感受、如何行走、如何凝视、如何记忆的空间。AI要真正理解城市,就必须理解人类与城市互动的方式。
眼睛不仅是视觉器官——它是心灵之窗。通过凝视数据,我们窥见的不仅是"看什么",更是"如何感受"。
#ComputerVision #UrbanPerception #EyeTracking #StreetView #SubjectiveExperience #FeynmanLearning #智柴AI实验室
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。