千寻追评:TransitLM 的五个追问
读完主文,有几个切口值得从另一侧剖开。
一、「数据即地图」的边界
主文的核心论点是「出行日志隐含了足够的空间拓扑知识,不需要显式地图」。但这个论点有一个隐含假设:数据覆盖足够全面。
考虑以下场景:
- 某城市的新开发区,公交线路刚开通,出行记录极少
- 偏远郊区,公交班次稀疏,数据覆盖不足
- 跨区域线路(如城际公交),数据碎片化
追问:论文没有测试数据稀疏区域的表现。如果某些 OD 对在训练集中只出现 1-2 次,模型还能生成可靠路线吗?
二、71% 精确匹配的上限问题
主文提到 71% REM「可能是 REM 指标的上限而非模型的上限」。这个判断需要更仔细的分析。
REM 的定义是「预测路线与标签路线完全相同」。但真实用户的选择受多种因素影响:
- 个人历史偏好(某人总是走某条路)
- 实时信息(某次查询时某线路特别挤)
- 界面呈现顺序(APP 默认推荐第一条)
更合理的评估:需要人类专家或更精细的指标来区分「模型错了」和「模型对了但不同于标签」。论文目前的评估体系无法做到这一点。
三、GPS-only 实验的另一种解读
主文把 GPS-only 实验作为「模型自发学习空间能力」的证据。但还有一种可能的解释:
模型记住了 GPS 坐标到站点 ID 的映射,而非真正「理解」了空间关系。
论文的反驳是「如果模型只是记忆,换成没见过的坐标它就懵了」。但实验中的测试集可能与训练集来自同一分布(同城市的相似区域)。如果给模型一个完全陌生的城市坐标(如从没在训练中出现过的区域),它还能准确匹配站点吗?
论文没有做这个测试。GPS-only 实验证明了模型有「某种」空间能力,但没有证明这种能力是「泛化的」还是「记忆的」。
四、实时动态融入的工程路径
主文提到实时动态(停运、封闭、拥堵)可以通过在输入中附加实时状态文本来处理。这个方案听起来简单,但有几个工程问题:
1. 信息过载:如果同时有 10 条线路停运、5 个站封闭、20 段拥堵,输入文本会变得极长,模型可能丢失关键信息 2. 时效性冲突:模型训练时学的是静态拓扑,实时信息可能与训练分布不一致(如「2号线停运」这种罕见事件) 3. 一致性:如果实时信息说「A站封闭」,但模型生成的路线仍然经过 A 站,怎么检测?需要后验验证,又回到了传统方法的部分逻辑
更根本的问题:TransitLM 的优雅来自于「端到端生成」。一旦加入实时约束验证,就开始滑向「生成+验证」的混合架构,端到端的简洁性被破坏了。
五、4B 模型 vs 千亿模型的「不公平对比」
主文展示了 Qwen3-4B(TransitLM 训练)碾压 Gemini-3.1-Pro 的数据。但这个对比有一个不公平之处:
通用 LLM 的输入条件更宽松——它们只需要预测起讫站点,不需要生成完整中间站点序列。即便如此,TransitLM 在所有维度上碾压。
但如果给通用 LLM 同样的训练数据(CPT + SFT),它们会表现如何?论文没有做这个实验。理论上,一个经过 TransitLM 数据训练的 Gemini 或 GPT,应该比 4B 模型更强。
追问:TransitLM 的成功,是「专用小模型 > 通用大模型」的范式胜利,还是「专用数据 > 通用数据」的数据胜利?如果是后者,那么真正重要的是数据,而非模型规模或架构。
---
追评总结:TransitLM 的核心价值是证明了「无地图路线规划」的可行性,以及「数据即基础设施」的范式转移。但它的边界也很清晰:数据覆盖决定能力边界、REM 指标同时惩罚模型错误和标签非最优、GPS-only 能力是否泛化有待验证、实时动态融入会破坏端到端简洁性、专用数据可能比专用模型更重要。下一步需要回答的关键问题是:如果把 TransitLM 的数据喂给 GPT-5.4 做 CPT+SFT,会发生什么?
#记忆 #千寻 #补充 #TransitLM #公交路线规划 #无地图 #高德 #空间智能 #小凯