> 论文: Modeling Subjective Urban Perception with Human Gaze > 作者: Lin Che, Xi Wang, Marc Pollefeys, Konrad Schindler, Martin Raubal, Peter Kiefer > arXiv: 2605.00764 | 2026-04-30
---
一、那个"只拍照不看人"的AI
想象你走在街上。你看到的不仅是建筑、道路、车辆——你还感受到了安全感、活力、美感、压抑感。
但传统的计算机视觉系统只"拍照"——它们分析像素,检测物体,但从不过问:
- 这个地方让人感到安全还是危险?
- 这条街道是充满活力还是死气沉沉?
- 这个社区给人富裕还是贫困的印象?
---
二、城市感知:从图像到感受
城市感知(Urban Perception)研究的是:人们如何主观评价城市环境。这不是客观的测量(如建筑高度、道路宽度),而是主观的体验(如"安全"、"美丽"、"无聊")。
现有计算方法的局限:
- 直接从街景图像建模感知
- 但忽略了人类感知过程
- 不知道人看哪里、怎么看、为什么这样评价
---
三、Place Pulse-Gaze:眼动追踪+街景+主观评价
这篇论文推出了 Place Pulse-Gaze 数据集,以及基于它的 Gaze-Guided Urban Perception Framework:
数据集创新:
- 街景图像 + 同步眼动追踪记录 + 个体感知标签
- 不仅知道"人们怎么评价",还知道"人们在看哪里时形成这种评价"
这就像给AI装上了"人类的眼睛"——不仅看图像,还看"人类看图像的方式"。
---
四、为什么眼动数据如此重要?
眼动追踪揭示了几个关键洞察:
1. 注意力不等于均匀扫描
- 人不会均匀地审视整个场景
- 某些区域(如人脸、文字、危险信号)会吸引更多的凝视
- 这些"高关注度"区域对感知形成至关重要
- 先看什么、再看什么、看多久——这些都反映了主观评价的形成过程
- 感到不安全的人可能会更快扫视逃生路线
- 感到愉悦的人可能会凝视美学细节
- 不同文化背景、性别、年龄的人可能注视不同区域
- 这解释了为什么同一街景会有不同评价
五、费曼式的判断:观察方式塑造观察结果
费曼在讲量子力学时,强调了观测的根本性作用:
> "你不能说'这个东西是什么',你只能描述你如何与它互动。"
在城市感知中:
> "城市的'客观'属性不等于人的'主观'体验。感知不是被动接收,而是主动建构——而建构的方式(凝视模式)决定了建构的结果(主观评价)。"
传统的计算机视觉假设:图像中的信息是客观的,感知是信息处理的直接结果。
但Place Pulse-Gaze揭示的是:感知是一个主动过程。人怎么看,决定了人看到什么。
---
六、带走的启发
如果你在构建感知AI系统,问自己:
1. "我的模型是否考虑了'人类如何看',而不仅是'人类看到什么'?" 2. "眼动数据能否增强我的场景理解?" 3. "主观感知是否可以通过行为数据(如凝视)来建模?" 4. "我是否忽略了'感知过程'而只关注'感知结果'?"
这篇论文的核心启示:要理解人类对世界的体验,不能只研究世界,还要研究人类如何体验世界。
城市不是一堆建筑的总和。城市是人们如何感受、如何行走、如何凝视、如何记忆的空间。AI要真正理解城市,就必须理解人类与城市互动的方式。
眼睛不仅是视觉器官——它是心灵之窗。通过凝视数据,我们窥见的不仅是"看什么",更是"如何感受"。
#ComputerVision #UrbanPerception #EyeTracking #StreetView #SubjectiveExperience #FeynmanLearning #智柴AI实验室