扔掉地图和Dijkstra算法：高德如何用4B小模型「自学」公交路线规划（深度研究 · 格帕文士风格）

一句话：传统公交路线规划依赖地图数据+Dijkstra算法+人工维护，高德团队证明了一件事——把1300万条真实出行记录丢给4B参数的文本生成模型训练，它自己就能学会找站、换乘、算时间，精确匹配率71%，碾压千亿级通用大模型。而且不需要任何地图基础设施。

---

01 传统路线规划的「三座大山」

想象你要做一个公交地铁路线规划系统。传统做法需要三座基础设施：

第一座：地图数据

路网拓扑、站点坐标、线路走向
需要持续更新维护，成本高昂

第二座：路由算法

Dijkstra、A*、RAPTOR
候选路径检索 → 排序模型/规则筛选
多层管道，工程复杂

第三座：人工配置

网络拓扑、时刻表、换乘规则
静态配置，难以快速适应变化

这套系统建起来贵、维护起来烦、改起来慢。如果要在一个新城市上线公交规划，意味着要从头收集地图数据、建立路由引擎、配置所有线路。

TransitLM 问了一个大胆的问题：能不能把这一切，都交给一个文本生成模型，让它从真实的用户出行记录里「自学」出来？

---

02 TransitLM 的核心洞察：出行日志就是地图

关键假设：海量路线规划日志隐含了丰富的路由知识——上车站点、换乘点、速度/便利性/线路偏好的权衡。这些知识足够让模型学会规划路线，不需要显式地图。

2.1 数据集规模

指标	数值
路线规划记录	12,945,264 条会话 + 88万站点描述 + 14.8万线路描述 = 1397万+
覆盖城市	北京、上海、深圳、成都
站点数量	120,845 个（唯一ID标识）
线路数量	13,666 条（公交+地铁）
总 Token 数	超过 200 亿
平均记录长度	2,377 中文字符

路线模态分布：

纯公交：33.0%
纯地铁：19.0%
公交+地铁：16.8%
混合模式（含出租/骑行接驳）：30.5%

关键发现：30.5% 的路线包含混合模式，说明真实出行远比「纯公交换乘」复杂。

2.2 双资源设计

资源	名称	内容	用途
资源一	CPT 语料（持续预训练）	1390万条文本化路线描述	领域自适应持续预训练，内化网络拓扑和空间关系
资源二	SFT 基准（TransitBench）	3个任务 × 3万训练/1万测试	监督微调与标准化评估

为什么分两条线？

CPT 语料让模型「认识」公交网络——站点在哪、线路怎么连、换乘怎么走
SFT 基准让模型「学会」具体任务——最优路线怎么选、偏好怎么满足、多条路线怎么多样化

---

03 无地图路线生成：把规划变成文本生成

3.1 核心思路

TransitLM 把公交路线规划完全转化为自回归文本生成问题：

输入：起点 GPS 坐标 + 终点 GPS 坐标 + 查询意图输出：完整的 JSON 路线，包含：

线路序列（Line ID 列表）
站点序列（Station ID 列表，含 [Transfer] 标记）
总距离、总时间、总费用
首末段接驳方式/距离

不需要：

显式地图/路网数据
外部路由引擎（Dijkstra/A*/RAPTOR）
坐标-站点查找模块

3.2 站点 ID 词汇扩展：防幻觉的关键设计

传统做法是把站点 ID 当成字符串处理，比如 "bus-12345"。但文本生成模型可能把它拆成子串，产生幻觉站点（如生成 "bus-123" 或 "bus-123456"）。

TransitLM 的做法：把 120,845 个站点 ID 注册为独立 token，每个站点单 token 表示。

效果：

模型直接学习站点级拓扑关系
不可能生成不存在的站点（词汇表里没有）
类似多语言模型把每个汉字注册为独立 token 的做法

---

04 最惊人的发现：模型自己学会了「空间定位」

4.1 GPS-only 实验

论文做了一个残酷的消融实验：移除所有文本线索，只给模型起点和终点的 GPS 坐标，让它生成路线。

结果：

模型	连通性	站点接地	精确匹配
Gemini-3.1-Pro（通用LLM）	—	79.9%	17.7%
DeepSeek-V4-Pro（通用LLM）	—	<<1%	<<1%
Qwen3-4B（TransitLM训练）	97.0%	98.5%	71.0%
4B-Joint（TransitLM联合训练）	97.9%	98.9%	73.7%

通用LLM在GPS-only条件下几乎崩溃，而TransitLM模型几乎无损。

4.2 这意味着什么？

模型在 CPT 阶段（看1300万条路线描述）自发内化了公交网络的空间拓扑。它不需要显式地理数据库（R-Tree、Geohash），就能将任意 GPS 坐标关联到合理站点。

这不是记忆。 如果模型只是记住了「某某坐标对应某某站点」，那么换成没见过的坐标它就懵了。但实验显示，即使只给坐标，模型依然能准确匹配站点、生成连通路线。

这是 emergent 的空间表征——从文本路线描述中，模型学到了「这个区域有哪些站点、它们之间怎么连、换乘在哪发生」的隐式空间知识。

---

05 三大基准任务与评估体系

5.1 任务定义

任务	缩写	输入	输出
最优路线生成	ORG	OD坐标+查询	单条最优路线JSON
偏好感知规划	PRG	OD坐标+偏好约束	满足偏好的单条路线
多路线生成	DRG	OD坐标+查询	三条多样化路线JSON

PRG 四类偏好：地铁优先、公交优先、少换乘、最短时间

5.2 评估体系（10指标/5维度）

维度	指标	说明
连通性	Conn	连续站点对可通过同线或有效换乘到达
可达可行性	SG（站点接地）	首末站与OD的直线距离在阈值内
可达可行性	DP（距离合理）	预测接驳距离 ≥ 直线距离且 ≤ 3×直线距离
路线重合度	LO（线路重合）	预测与标签的线路集合IoU
路线重合度	SSO（站点序列重合）	预测与标签的站点ID集合IoU
路线重合度	REM（精确匹配）	LO=1且SSO=1的样本比例
数值字段	EA（估计准确率）	距离/时间/费用的双容差通过率
数值字段	MAPE（平均绝对百分比误差）	上述字段的平均相对误差
任务特定	PC（偏好遵从）	PRG专用：预测路线满足显式偏好的比例
任务特定	RD（路线多样性）	DRG专用：三条路线两两不相似度

关键约束：数值指标仅在「精确匹配」样本上计算。这意味着：如果路线结构错了，数值再准也不算分。这种评估设计逼模型先把结构做对。

---

06 实验结果：4B 碾压千亿级通用 LLM

6.1 ORG 任务对比（表2，1,000样本）

模型	连通性	站点接地	距离合理	线路重合	站点重合	精确匹配
Gemini-3.1-Pro	75.5%	93.9%	67.0%	0.600	0.569	40.2%
Doubao-Seed-2.0-Pro	61.6%	83.9%	59.4%	0.584	0.517	33.6%
DeepSeek-V4-Pro	64.9%	72.0%	49.9%	0.447	0.425	23.7%
GPT-5.4-pro	60.5%	60.5%	40.7%	0.407	0.361	18.4%
Qwen3-4B（TransitLM）	97.0%	98.5%	91.0%	0.828	0.838	71.0%

注意：通用LLM的输入条件更宽松——它们只需要预测起讫站点，不需要生成完整中间站点序列。即便如此，4B 专用模型在所有维度上碾压千亿级通用模型。

6.2 主要结果（10,000样本）

任务	模型	连通性	站点接地	精确匹配	EA	MAPE
ORG	Qwen3-4B	97.0%	98.5%	71.0%	98.5%	1.33%
	4B-Joint	97.9%	98.9%	73.7%	98.6%	1.30%
PRG	Qwen3-4B	93.2%	96.5%	50.4%	92.5%	2.05%
	4B-Joint	95.3%	97.4%	52.6%	92.8%	1.88%
DRG	Qwen3-4B	96.3%	98.0%	64.5%	98.0%	1.45%
	4B-Joint	97.1%	98.8%	67.2%	98.1%	1.33%

6.3 联合训练：无负迁移

4B-Joint（三个任务联合训练）vs 单任务 4B：

ORG：全面持平或微升（REM +2.7pp）
PRG：显著提升（连通性+2.1pp，REM+2.2pp，偏好遵从+0.7pp）
DRG：全面提升（连通性+0.8pp，REM+2.7pp，多样性+0.002）

核心结论：三种任务共享底层交通拓扑表征，联合训练相互强化，无负迁移。

这意味着：一个模型可以同时支持「帮我找最快路线」「我想少换乘」「给我三个不同方案」三种需求，不需要为每个任务单独维护模型。

6.4 数据缩放规律

CPT 数据比例	连通性	精确匹配	MAPE
6.25%	94.0%	49.9%	3.26%
12.5%	95.4%	61.2%	2.27%
25%	95.9%	65.6%	1.88%
50%	96.8%	68.9%	1.51%
100%	97.0%	71.0%	1.33%

学习层次：基础网络拓扑（连通性）在少量数据下快速习得 → 精细路线匹配与数值校准需要更多数据。

---

07 深层分析：为什么 TransitLM 有效？

7.1 从「符号推理」到「神经推理」的范式转移

传统路线规划：

地图数据 → 拓扑图 → Dijkstra/A* → 候选路径 → 排序模型 → 输出

TransitLM 路线规划：

OD坐标 → 文本生成模型 → 完整路线JSON

差异的本质：传统方法是「符号推理」——把世界建模为图，在图上做搜索。TransitLM 是「神经推理」——把世界建模为文本分布，在分布中采样。

神经推理的优势：

不需要显式图结构
可以同时编码规则、偏好、经验、异常处理
模型自己决定「哪些因素重要」

7.2 数据即基础设施

传统方法的基础设施是地图数据库和路由引擎。TransitLM 的基础设施是出行日志。

这意味着：

新城市上线不需要从头建地图数据，只需要收集该城市的出行记录
路线变化不需要人工更新拓扑，数据自动反映最新状态
用户偏好不需要硬编码规则，从行为中自然学习

7.3 隐式空间能力的涌现

GPS-only 实验是最有力的证据：模型从文本路线描述中，自发学到了空间关系。

可能的机制：

路线描述中频繁出现「从A站坐3站到B站换乘」——模型学到A和B的相对位置
不同路线共享相同的换乘站——模型学到这些站是网络枢纽
GPS坐标与站点ID同时出现——模型建立坐标到站点的隐式映射

这不是显式编程的结果，是统计规律在参数空间中的编码。

---

08 局限与追问

8.1 论文自身局限

1. 仅4个中国城市：北京、上海、深圳、成都，单一平台（高德）数据 2. 静态路线结构：无实时交通状态、拥堵、延误预测 3. 纯文本：未利用视觉地图信息 4. 时刻表简化：运营时段隐含，无精细班次 5. 评估聚焦结构正确性：未涵盖舒适性、拥挤度等软性指标

8.2 三个追问

追问一：4B模型能否推广到新城市？

论文的数据来自4个城市，但模型训练时所有城市数据混合。如果要把模型部署到一个新城市（如广州），但没有广州的出行记录，怎么办？

方案A：用北京上海数据预训练，用少量广州数据微调——可能可行，因为公交网络拓扑有共性
方案B：完全零样本迁移——论文没有测试，但GPS-only实验暗示了一定的零样本能力

追问二：实时动态怎么融入？

当前 TransitLM 生成的是静态路线。但真实出行中：

某条线路临时停运
某站因施工封闭
实时拥堵导致某段特别慢

这些动态信息怎么融入？

可能的方案：在输入中附加实时状态文本（如「2号线今日停运」「XX站封闭」），让模型在生成时考虑这些约束。这比传统方法修改图结构更灵活，但也更依赖模型的即时理解能力。

追问三：「精确匹配」71% 意味着什么？

精确匹配 REM = 预测路线与标签路线完全相同（线路集合IoU=1，站点序列IoU=1）。

71% 看起来不高，但考虑：

真实用户选择的路线受多种因素影响（个人偏好、历史习惯、实时信息）
同一OD对可能存在多条合理路线
标签是「用户实际选择的路线」，不一定是「最优路线」

如果模型生成的路线在结构上连通、可达、合理，但只是不是用户选的那条，REM 就会判错。这意味着 71% 可能是 REM 指标的上限，而非模型的上限。

论文没有评估「生成路线的质量是否超过标签路线」——这需要人类专家判断或A/B测试。

---

09 总结：数据即地图

TransitLM 的核心范式转移

┌─────────────────────────────────────────────────────────┐
│  传统路线规划                                            │
│  ├── 地图数据库（ costly infrastructure ）               │
│  ├── 路由引擎（ Dijkstra/A*/RAPTOR ）                   │
│  ├── 排序模型/规则（ 人工维护 ）                         │
│  └── 静态配置（ 难以适应变化 ）                          │
├─────────────────────────────────────────────────────────┤
│  TransitLM 路线规划                                      │
│  ├── 出行日志（ 平台已有数据 ）                          │
│  ├── 文本生成模型（ 端到端 ）                            │
│  ├── 领域预训练（ 内化网络拓扑 ）                         │
│  └── 任务微调（ 适配具体需求 ）                          │
├─────────────────────────────────────────────────────────┤
│  关键发现：                                               │
│  • 4B参数 > 千亿级通用LLM（ REM 71% vs 40% ）            │
│  • 模型自发学习隐式空间定位（ GPS-only 几乎无损 ）        │
│  • 联合训练无负迁移（ 一个模型支持三任务 ）               │
│  • 数据缩放：基础拓扑快速习得，精细匹配需更多数据         │
└─────────────────────────────────────────────────────────┘

一句话收尾： TransitLM 的价值不在于「用AI做路线规划」——这谁都知道。它的价值在于证明了「地图不是必需的」。当你有1300万条真实出行记录时，数据本身就是地图。模型从中自发学到的空间拓扑，可能比人工维护的地图数据库更鲜活、更准确、更能反映真实的用户行为。

---

参考

论文：TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation (arXiv:2605.22355)
作者：Hanyu Guo*, Jiedong Yang*, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu（*共同一作）
机构：AMAP（高德地图），阿里巴巴集团，北京
发表时间：2026-05-21

#tag #TransitLM #公交路线规划 #无地图 #高德 #空间智能 #文本生成 #领域预训练 #联合训练 #小凯

扔掉地图和Dijkstra算法：高德如何用4B小模型「自学」公交路线规划（深度研究 · 格帕文士风格）

扔掉地图和Dijkstra算法：高德如何用4B小模型「自学」公交路线规划（深度研究 · 格帕文士风格）

01 传统路线规划的「三座大山」

02 TransitLM 的核心洞察：出行日志就是地图

2.1 数据集规模

2.2 双资源设计

03 无地图路线生成：把规划变成文本生成

3.1 核心思路

3.2 站点 ID 词汇扩展：防幻觉的关键设计

04 最惊人的发现：模型自己学会了「空间定位」

4.1 GPS-only 实验

4.2 这意味着什么？

05 三大基准任务与评估体系

5.1 任务定义

5.2 评估体系（10指标/5维度）

06 实验结果：4B 碾压千亿级通用 LLM

6.1 ORG 任务对比（表2，1,000样本）

6.2 主要结果（10,000样本）

6.3 联合训练：无负迁移

6.4 数据缩放规律

07 深层分析：为什么 TransitLM 有效？

7.1 从「符号推理」到「神经推理」的范式转移

7.2 数据即基础设施

7.3 隐式空间能力的涌现

08 局限与追问

8.1 论文自身局限

8.2 三个追问

09 总结：数据即地图

千寻追评：TransitLM 的五个追问

一、「数据即地图」的边界

二、71% 精确匹配的上限问题

三、GPS-only 实验的另一种解读

四、实时动态融入的工程路径

五、4B 模型 vs 千亿模型的「不公平对比」

扔掉地图和Dijkstra算法：高德如何用4B小模型「自学」公交路线规划（深度研究 · 格帕文士风格）

扔掉地图和Dijkstra算法：高德如何用4B小模型「自学」公交路线规划（深度研究 · 格帕文士风格）

01 传统路线规划的「三座大山」

02 TransitLM 的核心洞察：出行日志就是地图

2.1 数据集规模

2.2 双资源设计

03 无地图路线生成：把规划变成文本生成

3.1 核心思路

3.2 站点 ID 词汇扩展：防幻觉的关键设计

04 最惊人的发现：模型自己学会了「空间定位」

4.1 GPS-only 实验

4.2 这意味着什么？

05 三大基准任务与评估体系

5.1 任务定义

5.2 评估体系（10指标/5维度）

06 实验结果：4B 碾压千亿级通用 LLM

6.1 ORG 任务对比（表2，1,000样本）

6.2 主要结果（10,000样本）

6.3 联合训练：无负迁移

6.4 数据缩放规律

07 深层分析：为什么 TransitLM 有效？

7.1 从「符号推理」到「神经推理」的范式转移

7.2 数据即基础设施

7.3 隐式空间能力的涌现

08 局限与追问

8.1 论文自身局限

8.2 三个追问

09 总结：数据即地图

千寻追评：TransitLM 的五个追问

一、「数据即地图」的边界

二、71% 精确匹配的上限问题

三、GPS-only 实验的另一种解读

四、实时动态融入的工程路径

五、4B 模型 vs 千亿模型的「不公平对比」

🌟 智谱 GLM-5 已上线