自动驾驶的觉醒:从感知像素到重构世界的五次跃迁

Topic: Autonomous Driving Technology Evolution
Keywords: BEV, MapTR, Occupancy, UniAD, SparseDrive, SparseDriveV2, DiffusionDrive, World Model

引言

如果把自动驾驶比作一个正在成长的智能体,它的演进史本质上是一部认知边界不断扩张的进化史。从最初战战兢兢地识别交通标志,到如今尝试在脑海中模拟物理世界的运行规律,技术路线经历了几次决定性的范式转移(Paradigm Shift)。每一代技术的更迭,都是在解决上一个阶段留下的”认知死角”。

本文以”认知维度的突破”为主线,梳理自动驾驶从”视觉翻译”到”物理模拟”的五次关键跃迁,涵盖模块化感知、BEV 空间重构、占用网络、端到端融合与世界模型等核心方向。

1. 第一幕:碎裂的感知——模块化时代的”委员会”决策

在早期(2020 年以前),自动驾驶系统更像是一个分工明确但沟通低效的委员会。

感知模块(如红绿灯识别 TLR、车辆检测)通过 2D 卷积神经网络在图像上画框;预测模块估算他车行为;规划模块生成行驶轨迹。这些孤立的”框”被转化为坐标后传递给下游。这种架构清晰、可解释性强,在工程上也足够稳定。

然而,这种严格的模块化架构(Modular Pipeline)深陷信息瓶颈的泥潭:

  • 信息损毁:当感知模块将丰富的图像压缩成几个枯燥的坐标点 $(x, y, v)$ 时,大量的环境上下文(路面的湿滑度、遮挡物的边缘、光影的暗示)被永久丢弃了。
  • 误差崩塌:各模块是独立训练的,一旦上游感知出现误差,下游模块很难纠正。感知模块 1% 的目标丢失,在规划模块可能导致决策失败。
  • 规则驱动:下游的决策者只能在残缺的信息碎片中,小心翼翼地遵循人类预设的 if-else 规则前进。

这种”各自为战”的局面,推动研究者思考一个根本问题:能不能给所有模块一个统一的空间语境?

2. 第二幕:空间的重构——BEV 带来的”上帝视角”

技术的第一次真正觉醒,源于智能体获得了空间感

研究者意识到,车是开在 3D 物理世界里的,而非 2D 照片里——在 2D 特征空间中直接回归 3D 坐标本身就是一个病态问题(ill-posed)。以 LSS (Lift-Splat-Shoot) 为代表的方案解决了从平面到空间的跨越,将 2D 图像特征”举起”到 3D 空间并”拍扁”成 BEV 视图;而 BEVFormer 则通过 Transformer 建立了统一的鸟瞰图空间表示。与此同时,DETR3D → PETR → StreamPETR 这条 query-based 路线也在 BEV 空间上平行展开,引入了跨帧传播的时序建模能力,最终汇入 SparseDrive 的稀疏表示范式。

在这个统一的空间沙盘上,MapTR 登场了。传统方法通常通过像素分割识别车道区域,但道路结构本身具有明显的几何形态——车道线本质是一条曲线。MapTR 不再满足于像素级的分割,而是引入了矢量化建模的思路:

  • 核心思想:直接预测一组地图元素(车道线、道路边界、斑马线),每个元素由一条折线或曲线表示。
  • 排列不变性建模(Permutation-invariant modeling):消除点集排列顺序对训练的干扰。
  • 表示形式的转变:从密集像素表示(Dense Pixel)转向稀疏结构表示(Vector Element)。

值得注意的是,BEV 时代还催生了一条平行路线:BEVFusion(2022)证明了将激光雷达点云和摄像头图像统一到 BEV 空间后进行特征融合,可以显著提升检测精度和鲁棒性。这条”纯视觉 vs 多传感器”的技术分叉至今仍是工业落地中的核心决策点。

这一阶段的突破在于:系统不再只是”看”图像,而是在大脑中”重建”地图。感知输出开始具备明确的几何与拓扑意义。有了这种确定性的空间结构,自动驾驶才真正告别了平面感知的原始阶段。至此,技术完成了从感知 1.0(YOLO / Faster R-CNN,解决”那是什么”)到感知 2.0(LSS / BEVFormer,解决”在哪儿”)再到表示 1.0(MapTR,解决”路怎么走”)的三连跳。

3. 第三幕:隐形的防线——Occupancy Network 对”未知”的征服

即便有了矢量地图和车辆检测,系统仍会被”未知的未知”击败——比如路面上翻倒的货车、散落的纸箱、甚至姿势怪异的异形物体。这些没见过、无法分类的障碍物,是传统检测框架的盲区。

2022 年前后,Occupancy Network(占用网络) 的普及填补了这一空白。它不再纠结于”那个物体是什么”,而是回归物理本质:那个空间是否被占用?

  • 技术逻辑:将 3D 空间划分为微小的格点(Voxel),只判断”这个空间是否被占用”,而不强制要求识别它”是什么”。这本质上模仿了激光雷达的感知方式。
  • 工业推动:特斯拉在 2022 AI Day 大规模推广该技术,随后学术界涌现了 TPVFormer 等优化方案。
  • 认知价值:系统从”语义识别”退回到更底层的”物理避障”。这种看似”退步”的策略,恰恰赋予了车辆处理异形障碍物的兜底能力。

从”显式语义识别”向”隐式物理避障”的过渡,是技术走向成熟的关键一步。占用网络为后续的世界模型提供了最基础的物理底色——因为世界模型预测的未来视图,底层往往就是基于 4D Occupancy 的时空演化。这一阶段对应表示 2.0:不问”是什么”,只问”占没占”——万物皆可避。

4. 第四幕:大脑的融合——从端到端到稀疏化表示

当空间建模和物理避障都具备后,系统迎来了一场”效率与协作”的革命。

4.1 端到端大统一:UniAD

尽管各模块的能力不断提升,它们之间依然存在隔阂——感知、预测、规划仍然是”串联”的,信息在传递过程中不断折损。

UniAD (Unified Autonomous Driving) 为里程碑,自动驾驶进入了真正的端到端(End-to-End)时代。UniAD 在一个 Transformer 网络里,让感知的结果直接作为 Query 传递给预测和规划,实现了全栈信息的无损流动。过去层层传递的模块化架构被打破,感知、预测与规划在一个统一的框架下协同优化。

UniAD 获得了 CVPR 2023 最佳论文,证明了将感知、预测、规划整合在一个 Transformer 架构下可以显著提升性能。这标志着自动驾驶彻底告别了”模块化拼接”,进入了”神经网络一通到底”的时代。

4.2 稀疏化表示:SparseDrive

紧接着,另一个问题浮现:BEV 特征图太重了。密集的 BEV 表示随分辨率增长带来了巨大的计算开销。

SparseDrive 证明了认知的进阶并不一定意味着计算量的堆叠。通过稀疏场景表示(Sparse Scene Representation),系统学会了从万千像素中提炼出关键的 Scene Tokens

  • 万物皆 Token:取消密集的 BEV 特征图,代之以一组稀疏的 Scene Tokens。
  • 每个 Token 承载了目标的位置、类别以及潜在的语义特征,可以对应一辆车、一个行人或一段道路结构。
  • 规划模块可以直接基于这些 Token 推理出车辆的行驶轨迹。

这一阶段不仅是计算效率的提升,更是从”显式几何”向”隐式特征”的跨越。规划模块不再阅读”地图”,而是直接在特征空间中进行推理。这种高度抽象的 Token 化表示,标志着系统从对物理世界的硬性堆砌,转向了对场景本质的深度理解——决策 1.0 的核心就是打通感知-预测-规划的任督二脉,让”协同优化”取代”逐层传递”。

5. 第五幕:模拟的推演——世界模型与未来的生成

当下(2025–2026 年),技术正处于演进的最高峰:从”响应世界”转向”模拟世界”。

5.1 生成式规划:DiffusionDrive

真实世界的驾驶不是做单选题,而是概率论。传统的回归模型只能输出一条轨迹,面对复杂的十字路口往往会产生”决策犹豫”——回归多个模态的均值,得到一条谁也不满意的折中路径。

为什么扩散模型天然适合这个问题?核心在于:回归模型学习的是条件均值 $\mathbb{E}[y|x]$,而扩散模型学习的是条件分布 $p(y|x)$。前者在多模态分布上取平均会产生无意义的中间结果,后者则可以从分布中采样出多条各自合理的轨迹。

DiffusionDrive 利用扩散模型(Diffusion Model)从随机噪声中逐步恢复轨迹,实现了生成式规划

  • 多模态能力:系统可以同时生成”直行、减速等待、绕行”等多条合理的候选路径。
  • 不确定性表达:与传统直接回归一条轨迹相比,扩散模型可以更自然地表达驾驶决策的不确定性。

系统承认了未来的不确定性,标志着自动驾驶从”寻找唯一解”转向了”评估可能性”。

5.1b 评分派的反击:SparseDriveV2

然而,”生成即正义”的共识并非没有反例。

就在 DiffusionDrive 之后,地平线的 SparseDriveV2 抛出了一个颠覆性的反问:静态候选轨迹这条路,真的走不通了吗? 通过一组简洁的 Scaling 实验,作者发现将 Hydra-MDP 的轨迹锚点从 1024 增至 16384 时,规划性能持续上涨,直到显存溢出才被迫停止——天花板不是范式,而是覆盖率

如果问题仅仅是”词表不够密”,那解法就变得优雅:将一条完整轨迹拆成几何路径(”车往哪走”)和速度轮廓(”以多快的节奏走”)的自由组合。1024 条路径 × 256 种速度 = 262,144 条候选,是传统方案的 32 倍密度。再配合粗到细的两级评分,从 26 万条候选中层层筛选到 400 条精细打分,SparseDriveV2 以 92.0 PDMS 刷新了 NAVSIM 纪录——超越了所有生成式方法。

这一结果让行业意识到:规划范式的选择不是非此即彼。DiffusionDrive 系列(及后续的 DiffusionDriveV2、GoalFlow)代表了生成派——用连续去噪/流匹配探索动作空间;SparseDriveV2 代表了评分派——用超密静态词表加层级筛选覆盖动作空间。两条路线正在并行推进,各有所长。

5.2 世界模型:学习物理规律

但生成轨迹仍然只是解决问题的一部分。真正决定驾驶安全的,是对未来交通场景整体变化的理解。如果系统能够预测未来几秒内整个交通环境会如何演化,那么规划就可以在这些预测场景中进行决策。

正是在这种思路下,世界模型(World Model) 成为新的研究方向。以 GAIA-1DriveDreamer 为代表,系统通过海量视频学习物理世界的运行逻辑:

  • 动作条件生成:系统会问——“如果我左转,世界会变成什么样?”然后生成对应的未来场景视频或 BEV 演化。
  • Occupancy 的进阶:通过预测 3D 空间的占用变化,处理那些无法归类的异形物体。
  • 闭环学习:世界模型让系统在”想象”中试错,极大地提升了处理 Corner Cases 的能力。

5.3 VLA 与具身智能的融入

更进一步,随着 VLA(Vision-Language-Action) 模型的融入,智能体开始具备常识推理能力。它不仅理解物理,还能理解语义(如:”在那辆黄颜色车的后面停一下”)。

值得注意的是,世界模型与近年来快速发展的视觉语言模型(VLM)本质上解决的是不同层面的问题:

  • VLM/VLA:侧重语义理解与语言推理(如识别物体属性或理解语言指令)。
  • World Model:侧重物理动态演化(如位置、速度和空间约束)。

自动驾驶的世界模型本质上是在学习一个物理系统,而不是一个语言推理系统。从决策 2.0(生成式规划,预测可能的未来)到决策 3.0(VLA,理解语言指令),技术演进仍在加速。

6. 技术演进全景

                         自动驾驶认知演进路线图

┌──────────────────────────────────────────────────────────────┐
│ │
│ 第一幕 信息瓶颈 第二幕 异形障碍物 第三幕 │
│ 模块化感知 ──────────▶ BEV+矢量化 ─────────▶ 占用网络 │
│ (2D 画框) (3D空间重构) (物理兜底) │
│ YOLO / RCNN LSS / BEVFormer Occ Network │
│ DETR3D→PETR→StreamPETR TPVFormer │
│ MapTR / BEVFusion │
│ │
│ 模块割裂 │ │
│ ▼ │
│ │
│ 第四幕 单一轨迹/无法预测未来 第五幕 │
│ 端到端+稀疏化 ──────────────────────▶ 多模态规划+世界模型 │
│ (全栈融合) (路线之争) │
│ UniAD / SparseDrive DiffusionDrive (生成派) │
│ SparseDriveV2 (评分派) │
│ GAIA-1 (世界模型) │
│ │
└──────────────────────────────────────────────────────────────┘

认知维度: 识别物体 → 空间重构 → 物理避障 → 统一融合 → 模拟世界

技术演进对比表

版本 阶段定位 解决的问题 代表方法 空间形态
感知 1.0 图像空间感知 “那是什么” (Classification) YOLO, Faster R-CNN 2D 图像空间
感知 2.0 多视图 3D 检测 “精准定位” (Query-based) DETR3D, PETR, StreamPETR 3D 查询空间
感知 2.0+ BEV 空间重构 “在哪儿” (3D Localization) LSS, BEVFormer, BEVDet 3D BEV 空间
表示 1.0 结构化矢量表示 “路怎么走” (Topology) MapTR, VectorNet 3D 矢量空间
表示 2.0 占用空间建模 “万物皆可避” (General Obstacles) Tesla Occ, TPVFormer 3D 体素空间
决策 1.0 端到端大统一 “协同优化” (Information Flow) UniAD, SparseDrive 稀疏 Token 空间
决策 2.0 多模态规划 “覆盖可能性” (Multi-Modal) DiffusionDrive (生成), SparseDriveV2 (评分) 4D 时空流形 / 分解式词表
决策 3.0 VLA 与具身智能 “常识推理” (Reasoning) LLM-Driver 多模态语义空间

7. 底层趋势与启示

纵观整个发展过程,自动驾驶的技术路径体现出一个核心趋势:从”显式定义”向”隐式学习”的转变

  • 早期的 MapTR 还在用复杂的几何约束(显式)来规定车道线的形态。
  • 到了 SparseDrive,系统通过一组 Token 隐式表示整个场景。
  • 最终的 World Model 阶段,系统已经开始通过生成视频来自我理解物理规律(隐式)。

同时,评价体系也在演化。传统的 AP 指标衡量的是”画框准不准”,而世界模型时代的指标可能转向衡量”对未来的预测像不像”——从空间精度评价走向时序一致性评价。

这条技术路线,本质上是人工智能在物理世界中重新走一遍人类认知的路。从 MapTR 的几何结构,到 SparseDrive 的抽象表示,再到世界模型的物理直觉,每一个节点的跨越都让机器离”理解”更近一步。自动驾驶正从单纯的”传感器翻译机”进化为理解物理规律的智能体。