扔掉地图和Dijkstra算法:高德如何用4B小模型「自学」公交路线规划(深度研究 · 格帕文士风格)
一句话:传统公交路线规划依赖地图数据+Dijkstra算法+人工维护,高德团队证明了一件事——把1300万条真实出行记录丢给4B参数的文本生成模型训练,它自己就能学会找站、换乘、算时间,精确匹配率71%,碾压千亿级通用大模型。而且不需要任何地图基础设施。
01 传统路线规划的「三座大山」
想象你要做一个公交地铁路线规划系统。传统做法需要三座基础设施:
第一座:地图数据
- 路网拓扑、站点坐标、线路走向
- 需要持续更新维护,成本高昂
第二座:路由算法
- Dijkstra、A*、RAPTOR
- 候选路径检索 → 排序模型/规则筛选
- 多层管道,工程复杂
第三座:人工配置
- 网络拓扑、时刻表、换乘规则
- 静态配置,难以快速适应变化
这套系统建起来贵、维护起来烦、改起来慢。如果要在一个新城市上线公交规划,意味着要从头收集地图数据、建立路由引擎、配置所有线路。
TransitLM 问了一个大胆的问题:能不能把这一切,都交给一个文本生成模型,让它从真实的用户出行记录里「自学」出来?
02 TransitLM 的核心洞察:出行日志就是地图
关键假设:海量路线规划日志隐含了丰富的路由知识——上车站点、换乘点、速度/便利性/线路偏好的权衡。这些知识足够让模型学会规划路线,不需要显式地图。
2.1 数据集规模
| 指标 | 数值 |
|---|---|
| 路线规划记录 | 12,945,264 条会话 + 88万站点描述 + 14.8万线路描述 = 1397万+ |
| 覆盖城市 | 北京、上海、深圳、成都 |
| 站点数量 | 120,845 个(唯一ID标识) |
| 线路数量 | 13,666 条(公交+地铁) |
| 总 Token 数 | 超过 200 亿 |
| 平均记录长度 | 2,377 中文字符 |
路线模态分布:
- 纯公交:33.0%
- 纯地铁:19.0%
- 公交+地铁:16.8%
- 混合模式(含出租/骑行接驳):30.5%
关键发现:30.5% 的路线包含混合模式,说明真实出行远比「纯公交换乘」复杂。
2.2 双资源设计
| 资源 | 名称 | 内容 | 用途 |
|---|---|---|---|
| 资源一 | CPT 语料(持续预训练) | 1390万条文本化路线描述 | 领域自适应持续预训练,内化网络拓扑和空间关系 |
| 资源二 | SFT 基准(TransitBench) | 3个任务 × 3万训练/1万测试 | 监督微调与标准化评估 |
为什么分两条线?
- CPT 语料让模型「认识」公交网络——站点在哪、线路怎么连、换乘怎么走
- SFT 基准让模型「学会」具体任务——最优路线怎么选、偏好怎么满足、多条路线怎么多样化
03 无地图路线生成:把规划变成文本生成
3.1 核心思路
TransitLM 把公交路线规划完全转化为自回归文本生成问题:
输入:起点 GPS 坐标 + 终点 GPS 坐标 + 查询意图
输出:完整的 JSON 路线,包含:
- 线路序列(Line ID 列表)
- 站点序列(Station ID 列表,含 [Transfer] 标记)
- 总距离、总时间、总费用
- 首末段接驳方式/距离
不需要:
- 显式地图/路网数据
- 外部路由引擎(Dijkstra/A*/RAPTOR)
- 坐标-站点查找模块
3.2 站点 ID 词汇扩展:防幻觉的关键设计
传统做法是把站点 ID 当成字符串处理,比如 "bus-12345"。但文本生成模型可能把它拆成子串,产生幻觉站点(如生成 "bus-123" 或 "bus-123456")。
TransitLM 的做法:把 120,845 个站点 ID 注册为独立 token,每个站点单 token 表示。
效果:
- 模型直接学习站点级拓扑关系
- 不可能生成不存在的站点(词汇表里没有)
- 类似多语言模型把每个汉字注册为独立 token 的做法
04 最惊人的发现:模型自己学会了「空间定位」
4.1 GPS-only 实验
论文做了一个残酷的消融实验:移除所有文本线索,只给模型起点和终点的 GPS 坐标,让它生成路线。
结果:
| 模型 | 连通性 | 站点接地 | 精确匹配 |
|---|---|---|---|
| Gemini-3.1-Pro(通用LLM) | — | 79.9% | 17.7% |
| DeepSeek-V4-Pro(通用LLM) | — | <<1% | <<1% |
| Qwen3-4B(TransitLM训练) | 97.0% | 98.5% | 71.0% |
| 4B-Joint(TransitLM联合训练) | 97.9% | 98.9% | 73.7% |
通用LLM在GPS-only条件下几乎崩溃,而TransitLM模型几乎无损。
4.2 这意味着什么?
模型在 CPT 阶段(看1300万条路线描述)自发内化了公交网络的空间拓扑。它不需要显式地理数据库(R-Tree、Geohash),就能将任意 GPS 坐标关联到合理站点。
这不是记忆。 如果模型只是记住了「某某坐标对应某某站点」,那么换成没见过的坐标它就懵了。但实验显示,即使只给坐标,模型依然能准确匹配站点、生成连通路线。
这是 emergent 的空间表征——从文本路线描述中,模型学到了「这个区域有哪些站点、它们之间怎么连、换乘在哪发生」的隐式空间知识。
05 三大基准任务与评估体系
5.1 任务定义
| 任务 | 缩写 | 输入 | 输出 |
|---|---|---|---|
| 最优路线生成 | ORG | OD坐标+查询 | 单条最优路线JSON |
| 偏好感知规划 | PRG | OD坐标+偏好约束 | 满足偏好的单条路线 |
| 多路线生成 | DRG | OD坐标+查询 | 三条多样化路线JSON |
PRG 四类偏好:地铁优先、公交优先、少换乘、最短时间
5.2 评估体系(10指标/5维度)
| 维度 | 指标 | 说明 |
|---|---|---|
| 连通性 | Conn | 连续站点对可通过同线或有效换乘到达 |
| 可达可行性 | SG(站点接地) | 首末站与OD的直线距离在阈值内 |
| 可达可行性 | DP(距离合理) | 预测接驳距离 ≥ 直线距离 且 ≤ 3×直线距离 |
| 路线重合度 | LO(线路重合) | 预测与标签的线路集合IoU |
| 路线重合度 | SSO(站点序列重合) | 预测与标签的站点ID集合IoU |
| 路线重合度 | REM(精确匹配) | LO=1且SSO=1的样本比例 |
| 数值字段 | EA(估计准确率) | 距离/时间/费用的双容差通过率 |
| 数值字段 | MAPE(平均绝对百分比误差) | 上述字段的平均相对误差 |
| 任务特定 | PC(偏好遵从) | PRG专用:预测路线满足显式偏好的比例 |
| 任务特定 | RD(路线多样性) | DRG专用:三条路线两两不相似度 |
关键约束:数值指标仅在「精确匹配」样本上计算。这意味着:如果路线结构错了,数值再准也不算分。这种评估设计逼模型先把结构做对。
06 实验结果:4B 碾压千亿级通用 LLM
6.1 ORG 任务对比(表2,1,000样本)
| 模型 | 连通性 | 站点接地 | 距离合理 | 线路重合 | 站点重合 | 精确匹配 |
|---|---|---|---|---|---|---|
| Gemini-3.1-Pro | 75.5% | 93.9% | 67.0% | 0.600 | 0.569 | 40.2% |
| Doubao-Seed-2.0-Pro | 61.6% | 83.9% | 59.4% | 0.584 | 0.517 | 33.6% |
| DeepSeek-V4-Pro | 64.9% | 72.0% | 49.9% | 0.447 | 0.425 | 23.7% |
| GPT-5.4-pro | 60.5% | 60.5% | 40.7% | 0.407 | 0.361 | 18.4% |
| Qwen3-4B(TransitLM) | 97.0% | 98.5% | 91.0% | 0.828 | 0.838 | 71.0% |
注意:通用LLM的输入条件更宽松——它们只需要预测起讫站点,不需要生成完整中间站点序列。即便如此,4B 专用模型在所有维度上碾压千亿级通用模型。
6.2 主要结果(10,000样本)
| 任务 | 模型 | 连通性 | 站点接地 | 精确匹配 | EA | MAPE |
|---|---|---|---|---|---|---|
| ORG | Qwen3-4B | 97.0% | 98.5% | 71.0% | 98.5% | 1.33% |
| 4B-Joint | 97.9% | 98.9% | 73.7% | 98.6% | 1.30% | |
| PRG | Qwen3-4B | 93.2% | 96.5% | 50.4% | 92.5% | 2.05% |
| 4B-Joint | 95.3% | 97.4% | 52.6% | 92.8% | 1.88% | |
| DRG | Qwen3-4B | 96.3% | 98.0% | 64.5% | 98.0% | 1.45% |
| 4B-Joint | 97.1% | 98.8% | 67.2% | 98.1% | 1.33% |
6.3 联合训练:无负迁移
4B-Joint(三个任务联合训练)vs 单任务 4B:
- ORG:全面持平或微升(REM +2.7pp)
- PRG:显著提升(连通性+2.1pp,REM+2.2pp,偏好遵从+0.7pp)
- DRG:全面提升(连通性+0.8pp,REM+2.7pp,多样性+0.002)
核心结论:三种任务共享底层交通拓扑表征,联合训练相互强化,无负迁移。
这意味着:一个模型可以同时支持「帮我找最快路线」「我想少换乘」「给我三个不同方案」三种需求,不需要为每个任务单独维护模型。
6.4 数据缩放规律
| CPT 数据比例 | 连通性 | 精确匹配 | MAPE |
|---|---|---|---|
| 6.25% | 94.0% | 49.9% | 3.26% |
| 12.5% | 95.4% | 61.2% | 2.27% |
| 25% | 95.9% | 65.6% | 1.88% |
| 50% | 96.8% | 68.9% | 1.51% |
| 100% | 97.0% | 71.0% | 1.33% |
学习层次:基础网络拓扑(连通性)在少量数据下快速习得 → 精细路线匹配与数值校准需要更多数据。
07 深层分析:为什么 TransitLM 有效?
7.1 从「符号推理」到「神经推理」的范式转移
传统路线规划:
地图数据 → 拓扑图 → Dijkstra/A* → 候选路径 → 排序模型 → 输出
TransitLM 路线规划:
OD坐标 → 文本生成模型 → 完整路线JSON
差异的本质:传统方法是「符号推理」——把世界建模为图,在图上做搜索。TransitLM 是「神经推理」——把世界建模为文本分布,在分布中采样。
神经推理的优势:
- 不需要显式图结构
- 可以同时编码规则、偏好、经验、异常处理
- 模型自己决定「哪些因素重要」
7.2 数据即基础设施
传统方法的基础设施是地图数据库和路由引擎。TransitLM 的基础设施是出行日志。
这意味着:
- 新城市上线不需要从头建地图数据,只需要收集该城市的出行记录
- 路线变化不需要人工更新拓扑,数据自动反映最新状态
- 用户偏好不需要硬编码规则,从行为中自然学习
7.3 隐式空间能力的涌现
GPS-only 实验是最有力的证据:模型从文本路线描述中,自发学到了空间关系。
可能的机制:
- 路线描述中频繁出现「从A站坐3站到B站换乘」——模型学到A和B的相对位置
- 不同路线共享相同的换乘站——模型学到这些站是网络枢纽
- GPS坐标与站点ID同时出现——模型建立坐标到站点的隐式映射
这不是显式编程的结果,是统计规律在参数空间中的编码。
08 局限与追问
8.1 论文自身局限
- 仅4个中国城市:北京、上海、深圳、成都,单一平台(高德)数据
- 静态路线结构:无实时交通状态、拥堵、延误预测
- 纯文本:未利用视觉地图信息
- 时刻表简化:运营时段隐含,无精细班次
- 评估聚焦结构正确性:未涵盖舒适性、拥挤度等软性指标
8.2 三个追问
追问一:4B模型能否推广到新城市?
论文的数据来自4个城市,但模型训练时所有城市数据混合。如果要把模型部署到一个新城市(如广州),但没有广州的出行记录,怎么办?
- 方案A:用北京上海数据预训练,用少量广州数据微调——可能可行,因为公交网络拓扑有共性
- 方案B:完全零样本迁移——论文没有测试,但GPS-only实验暗示了一定的零样本能力
追问二:实时动态怎么融入?
当前 TransitLM 生成的是静态路线。但真实出行中:
- 某条线路临时停运
- 某站因施工封闭
- 实时拥堵导致某段特别慢
这些动态信息怎么融入?
可能的方案:在输入中附加实时状态文本(如「2号线今日停运」「XX站封闭」),让模型在生成时考虑这些约束。这比传统方法修改图结构更灵活,但也更依赖模型的即时理解能力。
追问三:「精确匹配」71% 意味着什么?
精确匹配 REM = 预测路线与标签路线完全相同(线路集合IoU=1,站点序列IoU=1)。
71% 看起来不高,但考虑:
- 真实用户选择的路线受多种因素影响(个人偏好、历史习惯、实时信息)
- 同一OD对可能存在多条合理路线
- 标签是「用户实际选择的路线」,不一定是「最优路线」
如果模型生成的路线在结构上连通、可达、合理,但只是不是用户选的那条,REM 就会判错。这意味着 71% 可能是 REM 指标的上限,而非模型的上限。
论文没有评估「生成路线的质量是否超过标签路线」——这需要人类专家判断或A/B测试。
09 总结:数据即地图
TransitLM 的核心范式转移
┌─────────────────────────────────────────────────────────┐
│ 传统路线规划 │
│ ├── 地图数据库( costly infrastructure ) │
│ ├── 路由引擎( Dijkstra/A*/RAPTOR ) │
│ ├── 排序模型/规则( 人工维护 ) │
│ └── 静态配置( 难以适应变化 ) │
├─────────────────────────────────────────────────────────┤
│ TransitLM 路线规划 │
│ ├── 出行日志( 平台已有数据 ) │
│ ├── 文本生成模型( 端到端 ) │
│ ├── 领域预训练( 内化网络拓扑 ) │
│ └── 任务微调( 适配具体需求 ) │
├─────────────────────────────────────────────────────────┤
│ 关键发现: │
│ • 4B参数 > 千亿级通用LLM( REM 71% vs 40% ) │
│ • 模型自发学习隐式空间定位( GPS-only 几乎无损 ) │
│ • 联合训练无负迁移( 一个模型支持三任务 ) │
│ • 数据缩放:基础拓扑快速习得,精细匹配需更多数据 │
└─────────────────────────────────────────────────────────┘
一句话收尾: TransitLM 的价值不在于「用AI做路线规划」——这谁都知道。它的价值在于证明了「地图不是必需的」。当你有1300万条真实出行记录时,数据本身就是地图。模型从中自发学到的空间拓扑,可能比人工维护的地图数据库更鲜活、更准确、更能反映真实的用户行为。
参考
- 论文:TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation (arXiv:2605.22355)
- 作者:Hanyu Guo*, Jiedong Yang*, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu(*共同一作)
- 机构:AMAP(高德地图),阿里巴巴集团,北京
- 发表时间:2026-05-21
#tag #TransitLM #公交路线规划 #无地图 #高德 #空间智能 #文本生成 #领域预训练 #联合训练 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。