公交路线规划新基准：大规模端到端数据集与对比测评

2026-06-07阅读 0热度 0

端到端

问题背景

公交路线规划，听起来是件小事——打开地图App输入起终点，路线就出来了。但背后支撑这套能力的工程体系，远比想象中复杂。

图1：传统方案（上）流程冗长；通用LLM（左下）产出断裂路线与幻觉站点；TransitLM（右下）通过隐式空间定位，端到端生成结构完整的连通路线。

传统方案：重依赖、长链路

传统的公交规划依赖一套完整的地图基础设施——站点拓扑图、实时时刻表、寻站策略……然后通过候选召回、多目标排序等多级管线一步步输出结果。管线长、依赖重，部署成本居高不下。

让大模型来做？准确率堪忧

既然LLM推理能力强、世界知识丰富，那能不能直接用它规划路线？实测表现让人大跌眼镜——六大最强通用模型（GPT-5.4、DeepSeek-V4、Gemini-3.1、Claude-4.6、Qwen-3.6、Doubao）的最佳连通率仅75.5%，精确匹配只有40.2%。更极端的是，去掉文字、只给GPS坐标后，精确匹配直接暴跌至0，说明这些模型完全没有空间定位能力。

结论很清晰：通用LLM缺的不是推理能力，而是公交网络的领域拓扑知识。

工具增强（LLM + 路径API）？依然复杂

另一条路是让LLM调用路径引擎API获取候选路线再做选择。这看似绕开了问题，实际上只是把「路线生成」降级为「路线选择」，工程复杂度没降低多少——地图基础设施依赖仍在，需要粗排/截断防止候选上下文过长，多轮API调用还会引入网络延迟与配额限制。

我们的思路：端到端，从数据中直接学会路线规划

核心问题：路线规划能否从数据中直接学会，完全绕开地图和引擎？

如果答案是肯定的，我们将获得：

特性说明流程极简输入用户查询 → 直接输出完整路线JSON，无中间环节隐式空间理解模型从数据中学会GPS坐标与站点的映射关系，无需显式地理数据库（核心发现）偏好感知兼顾LLM灵活性，支持自然语言需求（地铁优先/少换乘/最短时间等）小模型即可4B参数足够，部署成本与推理延迟大幅降低无外部依赖不需要地图API或网络调用","rows":6,"cols":2,"id":"jtrmC"}">

如何实现？

通用大模型缺乏公交网络知识，但这些知识实际上大量存在于导航平台的路线规划日志中——每一条日志都完整记录了换乘逻辑、站点序列、空间关系和用户偏好。实验证明，路线规划完全可以从数据中学会。更进一步，模型在训练过程中涌现了隐式空间定位能力——仅给定原始GPS坐标，无需任何地理数据库或坐标-站点映射表，模型即可精确定位到最近的公交站点并生成完整路线。

基于这一洞察，本方法包含三个关键设计：

1、站点即Token：从根源消灭幻觉

将全部120,845个站点ID注册为模型词表中的独立token。这一设计带来两个好处：其一，模型只能输出真实存在的站点，从根源消除幻觉站点；其二，站点作为独立token参与注意力计算，模型可以直接从共现模式中学习站点间的连通关系——频繁相邻出现的站点对自然获得更高的关联强度，从而在表示层面建立起网络拓扑，大幅降低生成断连路线的概率。

2、两阶段训练：CPT + SFT

继续预训练（CPT）：在13.9M条路线规划文本上做next-token prediction，让模型学习到可泛化的网络拓扑表示、站点空间关系和换乘逻辑——这不是死记硬背见过的路线，而是真正学会了网络结构。监督微调（SFT）：在三种规划任务上做prompt→label对齐，适配具体使用场景。实践中，同一个CPT模型可根据不同业务需求灵活扩展新任务，无需重新训练底座。

3、轻量骨干

Qwen3-4B-Base作为基座模型，4B参数即可完成全部任务。甚至0.6B模型仍能取得可用效果（连通率93.5%），使得移动端离线部署成为可能。

图2：TransitLM方法总览。左侧为数据来源（路线规划日志、站点信息、线路信息）；中间为三个Benchmark任务与评测体系；右侧为训练流程（词表扩展 → CPT → SFT）。

数据集与Benchmark

为了推动社区在这一方向的研究，团队开源了完整的数据集与评测基准。

数据集规模

图3：数据集中四个城市路线规划出发地的地理分布

维度数据规划记录1,300万覆盖城市北京、上海、深圳、成都站点数120,845线路数13,666CPT语料总量200亿+ token数据来源高德地图生产路径引擎输出","rows":7,"cols":2,"id":"Ogmn3"}">

三个Benchmark任务

任务说明训练/测试最优路线生成（ORG）给定起终点，生成一条最优路线3万 / 1万偏好感知规划（PRG）额外指定偏好（地铁优先/少换乘等），生成满足约束的路线3万 / 1万多路线生成（DRG）一次生成三条差异化路线供用户选择3万 / 1万","rows":4,"cols":3,"id":"b7YSX"}">

PS：对于未使用我们数据集训练及未采用对应站点ID体系的模型，我们提供了统一的评测API接口以确保公平比较，详见GitHub。

评测指标一览

设计了覆盖四个维度的10项评测指标，确保全面衡量路线质量：

评测维度指标衡量内容最基本的连通性Connectivity生成的站点序列是否实际可达（相邻站在同一线路或合法换乘）起终点上下车站的合理性Station Grounding上/下车站是否在起终点合理范围内（验证空间定位能力）Distance Plausibility预测的接驳距离是否物理合理路线质量Line/Station Overlap生成路线与用户实际行走路线的线路/站点序列匹配度Route Exact Match与用户实际行走路线/站点完全一致的比例路线相关预测数值的准确度Estimation Accuracy / MAPE距离、时间、费用的预测精度PRG和DRG特有指标Preference Compliance是否满足用户指定偏好Route Diversity多路线之间的差异性","rows":9,"cols":3,"id":"DXEgL"}">