Topic: Autonomous Driving Technology Evolution
Keywords: BEV, MapTR, Occupancy, UniAD, SparseDrive, SparseDriveV2, DiffusionDrive, World Model
引言
如果把自动驾驶比作一个正在成长的智能体,它的演进史本质上是一部认知边界不断扩张的进化史。从最初战战兢兢地识别交通标志,到如今尝试在脑海中模拟物理世界的运行规律,技术路线经历了几次决定性的范式转移(Paradigm Shift)。每一代技术的更迭,都是在解决上一个阶段留下的”认知死角”。
本文以”认知维度的突破”为主线,梳理自动驾驶从”视觉翻译”到”物理模拟”的五次关键跃迁,涵盖模块化感知、BEV 空间重构、占用网络、端到端融合与世界模型等核心方向。
1. 第一幕:碎裂的感知——模块化时代的”委员会”决策
在早期(2020 年以前),自动驾驶系统更像是一个分工明确但沟通低效的委员会。
感知模块(如红绿灯识别 TLR、车辆检测)通过 2D 卷积神经网络在图像上画框;预测模块估算他车行为;规划模块生成行驶轨迹。这些孤立的”框”被转化为坐标后传递给下游。这种架构清晰、可解释性强,在工程上也足够稳定。
然而,这种严格的模块化架构(Modular Pipeline)深陷信息瓶颈的泥潭:
- 信息损毁:当感知模块将丰富的图像压缩成几个枯燥的坐标点 $(x, y, v)$ 时,大量的环境上下文(路面的湿滑度、遮挡物的边缘、光影的暗示)被永久丢弃了。
- 误差崩塌:各模块是独立训练的,一旦上游感知出现误差,下游模块很难纠正。感知模块 1% 的目标丢失,在规划模块可能导致决策失败。
- 规则驱动:下游的决策者只能在残缺的信息碎片中,小心翼翼地遵循人类预设的 if-else 规则前进。
这种”各自为战”的局面,推动研究者思考一个根本问题:能不能给所有模块一个统一的空间语境?
2. 第二幕:空间的重构——BEV 带来的”上帝视角”
技术的第一次真正觉醒,源于智能体获得了空间感。
研究者意识到,车是开在 3D 物理世界里的,而非 2D 照片里——在 2D 特征空间中直接回归 3D 坐标本身就是一个病态问题(ill-posed)。以 LSS (Lift-Splat-Shoot) 为代表的方案解决了从平面到空间的跨越,将 2D 图像特征”举起”到 3D 空间并”拍扁”成 BEV 视图;而 BEVFormer 则通过 Transformer 建立了统一的鸟瞰图空间表示。与此同时,DETR3D → PETR → StreamPETR 这条 query-based 路线也在 BEV 空间上平行展开,引入了跨帧传播的时序建模能力,最终汇入 SparseDrive 的稀疏表示范式。
在这个统一的空间沙盘上,MapTR 登场了。传统方法通常通过像素分割识别车道区域,但道路结构本身具有明显的几何形态——车道线本质是一条曲线。MapTR 不再满足于像素级的分割,而是引入了矢量化建模的思路:
- 核心思想:直接预测一组地图元素(车道线、道路边界、斑马线),每个元素由一条折线或曲线表示。
- 排列不变性建模(Permutation-invariant modeling):消除点集排列顺序对训练的干扰。
- 表示形式的转变:从密集像素表示(Dense Pixel)转向稀疏结构表示(Vector Element)。
值得注意的是,BEV 时代还催生了一条平行路线:BEVFusion(2022)证明了将激光雷达点云和摄像头图像统一到 BEV 空间后进行特征融合,可以显著提升检测精度和鲁棒性。这条”纯视觉 vs 多传感器”的技术分叉至今仍是工业落地中的核心决策点。
这一阶段的突破在于:系统不再只是”看”图像,而是在大脑中”重建”地图。感知输出开始具备明确的几何与拓扑意义。有了这种确定性的空间结构,自动驾驶才真正告别了平面感知的原始阶段。至此,技术完成了从感知 1.0(YOLO / Faster R-CNN,解决”那是什么”)到感知 2.0(LSS / BEVFormer,解决”在哪儿”)再到表示 1.0(MapTR,解决”路怎么走”)的三连跳。
3. 第三幕:隐形的防线——Occupancy Network 对”未知”的征服
即便有了矢量地图和车辆检测,系统仍会被”未知的未知”击败——比如路面上翻倒的货车、散落的纸箱、甚至姿势怪异的异形物体。这些没见过、无法分类的障碍物,是传统检测框架的盲区。
2022 年前后,Occupancy Network(占用网络) 的普及填补了这一空白。它不再纠结于”那个物体是什么”,而是回归物理本质:那个空间是否被占用?
- 技术逻辑:将 3D 空间划分为微小的格点(Voxel),只判断”这个空间是否被占用”,而不强制要求识别它”是什么”。这本质上模仿了激光雷达的感知方式。
- 工业推动:特斯拉在 2022 AI Day 大规模推广该技术,随后学术界涌现了 TPVFormer 等优化方案。
- 认知价值:系统从”语义识别”退回到更底层的”物理避障”。这种看似”退步”的策略,恰恰赋予了车辆处理异形障碍物的兜底能力。
从”显式语义识别”向”隐式物理避障”的过渡,是技术走向成熟的关键一步。占用网络为后续的世界模型提供了最基础的物理底色——因为世界模型预测的未来视图,底层往往就是基于 4D Occupancy 的时空演化。这一阶段对应表示 2.0:不问”是什么”,只问”占没占”——万物皆可避。
4. 第四幕:大脑的融合——从端到端到稀疏化表示
当空间建模和物理避障都具备后,系统迎来了一场”效率与协作”的革命。
4.1 端到端大统一:UniAD
尽管各模块的能力不断提升,它们之间依然存在隔阂——感知、预测、规划仍然是”串联”的,信息在传递过程中不断折损。
以 UniAD (Unified Autonomous Driving) 为里程碑,自动驾驶进入了真正的端到端(End-to-End)时代。UniAD 在一个 Transformer 网络里,让感知的结果直接作为 Query 传递给预测和规划,实现了全栈信息的无损流动。过去层层传递的模块化架构被打破,感知、预测与规划在一个统一的框架下协同优化。
UniAD 获得了 CVPR 2023 最佳论文,证明了将感知、预测、规划整合在一个 Transformer 架构下可以显著提升性能。这标志着自动驾驶彻底告别了”模块化拼接”,进入了”神经网络一通到底”的时代。
4.2 稀疏化表示:SparseDrive
紧接着,另一个问题浮现:BEV 特征图太重了。密集的 BEV 表示随分辨率增长带来了巨大的计算开销。
SparseDrive 证明了认知的进阶并不一定意味着计算量的堆叠。通过稀疏场景表示(Sparse Scene Representation),系统学会了从万千像素中提炼出关键的 Scene Tokens:
- 万物皆 Token:取消密集的 BEV 特征图,代之以一组稀疏的 Scene Tokens。
- 每个 Token 承载了目标的位置、类别以及潜在的语义特征,可以对应一辆车、一个行人或一段道路结构。
- 规划模块可以直接基于这些 Token 推理出车辆的行驶轨迹。
这一阶段不仅是计算效率的提升,更是从”显式几何”向”隐式特征”的跨越。规划模块不再阅读”地图”,而是直接在特征空间中进行推理。这种高度抽象的 Token 化表示,标志着系统从对物理世界的硬性堆砌,转向了对场景本质的深度理解——决策 1.0 的核心就是打通感知-预测-规划的任督二脉,让”协同优化”取代”逐层传递”。
5. 第五幕:模拟的推演——世界模型与未来的生成
当下(2025–2026 年),技术正处于演进的最高峰:从”响应世界”转向”模拟世界”。
5.1 生成式规划:DiffusionDrive
真实世界的驾驶不是做单选题,而是概率论。传统的回归模型只能输出一条轨迹,面对复杂的十字路口往往会产生”决策犹豫”——回归多个模态的均值,得到一条谁也不满意的折中路径。
为什么扩散模型天然适合这个问题?核心在于:回归模型学习的是条件均值 $\mathbb{E}[y|x]$,而扩散模型学习的是条件分布 $p(y|x)$。前者在多模态分布上取平均会产生无意义的中间结果,后者则可以从分布中采样出多条各自合理的轨迹。
DiffusionDrive 利用扩散模型(Diffusion Model)从随机噪声中逐步恢复轨迹,实现了生成式规划:
- 多模态能力:系统可以同时生成”直行、减速等待、绕行”等多条合理的候选路径。
- 不确定性表达:与传统直接回归一条轨迹相比,扩散模型可以更自然地表达驾驶决策的不确定性。
系统承认了未来的不确定性,标志着自动驾驶从”寻找唯一解”转向了”评估可能性”。
5.1b 评分派的反击:SparseDriveV2
然而,”生成即正义”的共识并非没有反例。
就在 DiffusionDrive 之后,地平线的 SparseDriveV2 抛出了一个颠覆性的反问:静态候选轨迹这条路,真的走不通了吗? 通过一组简洁的 Scaling 实验,作者发现将 Hydra-MDP 的轨迹锚点从 1024 增至 16384 时,规划性能持续上涨,直到显存溢出才被迫停止——天花板不是范式,而是覆盖率。
如果问题仅仅是”词表不够密”,那解法就变得优雅:将一条完整轨迹拆成几何路径(”车往哪走”)和速度轮廓(”以多快的节奏走”)的自由组合。1024 条路径 × 256 种速度 = 262,144 条候选,是传统方案的 32 倍密度。再配合粗到细的两级评分,从 26 万条候选中层层筛选到 400 条精细打分,SparseDriveV2 以 92.0 PDMS 刷新了 NAVSIM 纪录——超越了所有生成式方法。
这一结果让行业意识到:规划范式的选择不是非此即彼。DiffusionDrive 系列(及后续的 DiffusionDriveV2、GoalFlow)代表了生成派——用连续去噪/流匹配探索动作空间;SparseDriveV2 代表了评分派——用超密静态词表加层级筛选覆盖动作空间。两条路线正在并行推进,各有所长。
5.2 世界模型:学习物理规律
但生成轨迹仍然只是解决问题的一部分。真正决定驾驶安全的,是对未来交通场景整体变化的理解。如果系统能够预测未来几秒内整个交通环境会如何演化,那么规划就可以在这些预测场景中进行决策。
正是在这种思路下,世界模型(World Model) 成为新的研究方向。以 GAIA-1 和 DriveDreamer 为代表,系统通过海量视频学习物理世界的运行逻辑:
- 动作条件生成:系统会问——“如果我左转,世界会变成什么样?”然后生成对应的未来场景视频或 BEV 演化。
- Occupancy 的进阶:通过预测 3D 空间的占用变化,处理那些无法归类的异形物体。
- 闭环学习:世界模型让系统在”想象”中试错,极大地提升了处理 Corner Cases 的能力。
5.3 VLA 与具身智能的融入
更进一步,随着 VLA(Vision-Language-Action) 模型的融入,智能体开始具备常识推理能力。它不仅理解物理,还能理解语义(如:”在那辆黄颜色车的后面停一下”)。
值得注意的是,世界模型与近年来快速发展的视觉语言模型(VLM)本质上解决的是不同层面的问题:
- VLM/VLA:侧重语义理解与语言推理(如识别物体属性或理解语言指令)。
- World Model:侧重物理动态演化(如位置、速度和空间约束)。
自动驾驶的世界模型本质上是在学习一个物理系统,而不是一个语言推理系统。从决策 2.0(生成式规划,预测可能的未来)到决策 3.0(VLA,理解语言指令),技术演进仍在加速。
6. 技术演进全景
自动驾驶认知演进路线图
┌──────────────────────────────────────────────────────────────┐
│ │
│ 第一幕 信息瓶颈 第二幕 异形障碍物 第三幕 │
│ 模块化感知 ──────────▶ BEV+矢量化 ─────────▶ 占用网络 │
│ (2D 画框) (3D空间重构) (物理兜底) │
│ YOLO / RCNN LSS / BEVFormer Occ Network │
│ DETR3D→PETR→StreamPETR TPVFormer │
│ MapTR / BEVFusion │
│ │
│ 模块割裂 │ │
│ ▼ │
│ │
│ 第四幕 单一轨迹/无法预测未来 第五幕 │
│ 端到端+稀疏化 ──────────────────────▶ 多模态规划+世界模型 │
│ (全栈融合) (路线之争) │
│ UniAD / SparseDrive DiffusionDrive (生成派) │
│ SparseDriveV2 (评分派) │
│ GAIA-1 (世界模型) │
│ │
└──────────────────────────────────────────────────────────────┘
认知维度: 识别物体 → 空间重构 → 物理避障 → 统一融合 → 模拟世界
技术演进对比表
| 版本 | 阶段定位 | 解决的问题 | 代表方法 | 空间形态 |
|---|---|---|---|---|
| 感知 1.0 | 图像空间感知 | “那是什么” (Classification) | YOLO, Faster R-CNN | 2D 图像空间 |
| 感知 2.0 | 多视图 3D 检测 | “精准定位” (Query-based) | DETR3D, PETR, StreamPETR | 3D 查询空间 |
| 感知 2.0+ | BEV 空间重构 | “在哪儿” (3D Localization) | LSS, BEVFormer, BEVDet | 3D BEV 空间 |
| 表示 1.0 | 结构化矢量表示 | “路怎么走” (Topology) | MapTR, VectorNet | 3D 矢量空间 |
| 表示 2.0 | 占用空间建模 | “万物皆可避” (General Obstacles) | Tesla Occ, TPVFormer | 3D 体素空间 |
| 决策 1.0 | 端到端大统一 | “协同优化” (Information Flow) | UniAD, SparseDrive | 稀疏 Token 空间 |
| 决策 2.0 | 多模态规划 | “覆盖可能性” (Multi-Modal) | DiffusionDrive (生成), SparseDriveV2 (评分) | 4D 时空流形 / 分解式词表 |
| 决策 3.0 | VLA 与具身智能 | “常识推理” (Reasoning) | LLM-Driver | 多模态语义空间 |
7. 底层趋势与启示
纵观整个发展过程,自动驾驶的技术路径体现出一个核心趋势:从”显式定义”向”隐式学习”的转变。
- 早期的 MapTR 还在用复杂的几何约束(显式)来规定车道线的形态。
- 到了 SparseDrive,系统通过一组 Token 隐式表示整个场景。
- 最终的 World Model 阶段,系统已经开始通过生成视频来自我理解物理规律(隐式)。
同时,评价体系也在演化。传统的 AP 指标衡量的是”画框准不准”,而世界模型时代的指标可能转向衡量”对未来的预测像不像”——从空间精度评价走向时序一致性评价。
这条技术路线,本质上是人工智能在物理世界中重新走一遍人类认知的路。从 MapTR 的几何结构,到 SparseDrive 的抽象表示,再到世界模型的物理直觉,每一个节点的跨越都让机器离”理解”更近一步。自动驾驶正从单纯的”传感器翻译机”进化为理解物理规律的智能体。