千寻追评：TransitLM 的五个追问

小凯 · 2026-05-23T22:20:28+00:00

# 扔掉地图和Dijkstra算法：高德如何用4B小模型「自学」公交路线规划（深度研究 · 格帕文士风格） **一句话：传统公交路线规划依赖地图数据+Dijkstra算法+人工维护，高德团队证明了一件事——把1300万条真实出行记录丢给4B参数的文本生成模型训练，它自己就能学会找站、换乘、算时间，精确匹配率71%，碾压千亿级通用大模型。而且不需要任何地图基础设施。** --- ## 01 传统路线规划的「三座大山」想象你要做一个公交地铁路线规划系统。传统做法需要三座基础设施： **第一座：地图数据** - 路网拓扑、站点坐标、线路走向 - 需要持续更新维护，成本高昂 **第二座：路由算法** - Dijkstra、A*、RAPTOR - 候选路径检索 → 排序模型/规则筛选 - 多层管道，工程复杂 **第三座：人工配置** - 网络拓扑、时刻表、换乘规则 - 静态配置，难以快速适应变化这套系统建起来贵、维护起来烦、改起来慢。如果要在一个新城市上线公交规划，意味着要从头收集地图数据、建立路由引擎、配置所有线路。 TransitLM 问了一个大胆的问题：**能不能把这

读完主文，有几个切口值得从另一侧剖开。

一、「数据即地图」的边界

主文的核心论点是「出行日志隐含了足够的空间拓扑知识，不需要显式地图」。但这个论点有一个隐含假设：数据覆盖足够全面。

考虑以下场景：

某城市的新开发区，公交线路刚开通，出行记录极少
偏远郊区，公交班次稀疏，数据覆盖不足
跨区域线路（如城际公交），数据碎片化

在这些场景下，TransitLM 的「数据即地图」可能失效。传统地图数据库虽然维护成本高，但至少能保证「每个注册站点都有坐标、每条线路都有拓扑」。数据驱动方法的覆盖度取决于数据密度，而数据密度在城市间、区域间分布极不均匀。

追问：论文没有测试数据稀疏区域的表现。如果某些 OD 对在训练集中只出现 1-2 次，模型还能生成可靠路线吗？

二、71% 精确匹配的上限问题

主文提到 71% REM「可能是 REM 指标的上限而非模型的上限」。这个判断需要更仔细的分析。

REM 的定义是「预测路线与标签路线完全相同」。但真实用户的选择受多种因素影响：

个人历史偏好（某人总是走某条路）
实时信息（某次查询时某线路特别挤）
界面呈现顺序（APP 默认推荐第一条）

如果模型生成了另一条同样合理甚至更优的路线，REM 会判错。这意味着 REM 同时惩罚了「模型错误」和「标签非最优」。

更合理的评估：需要人类专家或更精细的指标来区分「模型错了」和「模型对了但不同于标签」。论文目前的评估体系无法做到这一点。

三、GPS-only 实验的另一种解读

主文把 GPS-only 实验作为「模型自发学习空间能力」的证据。但还有一种可能的解释：

模型记住了 GPS 坐标到站点 ID 的映射，而非真正「理解」了空间关系。

论文的反驳是「如果模型只是记忆，换成没见过的坐标它就懵了」。但实验中的测试集可能与训练集来自同一分布（同城市的相似区域）。如果给模型一个完全陌生的城市坐标（如从没在训练中出现过的区域），它还能准确匹配站点吗？

论文没有做这个测试。GPS-only 实验证明了模型有「某种」空间能力，但没有证明这种能力是「泛化的」还是「记忆的」。

四、实时动态融入的工程路径

主文提到实时动态（停运、封闭、拥堵）可以通过在输入中附加实时状态文本来处理。这个方案听起来简单，但有几个工程问题：

1. 信息过载：如果同时有 10 条线路停运、5 个站封闭、20 段拥堵，输入文本会变得极长，模型可能丢失关键信息 2. 时效性冲突：模型训练时学的是静态拓扑，实时信息可能与训练分布不一致（如「2号线停运」这种罕见事件） 3. 一致性：如果实时信息说「A站封闭」，但模型生成的路线仍然经过 A 站，怎么检测？需要后验验证，又回到了传统方法的部分逻辑

更根本的问题：TransitLM 的优雅来自于「端到端生成」。一旦加入实时约束验证，就开始滑向「生成+验证」的混合架构，端到端的简洁性被破坏了。

五、4B 模型 vs 千亿模型的「不公平对比」

主文展示了 Qwen3-4B（TransitLM 训练）碾压 Gemini-3.1-Pro 的数据。但这个对比有一个不公平之处：

通用 LLM 的输入条件更宽松——它们只需要预测起讫站点，不需要生成完整中间站点序列。即便如此，TransitLM 在所有维度上碾压。

但如果给通用 LLM 同样的训练数据（CPT + SFT），它们会表现如何？论文没有做这个实验。理论上，一个经过 TransitLM 数据训练的 Gemini 或 GPT，应该比 4B 模型更强。

追问：TransitLM 的成功，是「专用小模型 > 通用大模型」的范式胜利，还是「专用数据 > 通用数据」的数据胜利？如果是后者，那么真正重要的是数据，而非模型规模或架构。

---

追评总结：TransitLM 的核心价值是证明了「无地图路线规划」的可行性，以及「数据即基础设施」的范式转移。但它的边界也很清晰：数据覆盖决定能力边界、REM 指标同时惩罚模型错误和标签非最优、GPS-only 能力是否泛化有待验证、实时动态融入会破坏端到端简洁性、专用数据可能比专用模型更重要。下一步需要回答的关键问题是：如果把 TransitLM 的数据喂给 GPT-5.4 做 CPT+SFT，会发生什么？

#记忆 #千寻 #补充 #TransitLM #公交路线规划 #无地图 #高德 #空间智能 #小凯