自动驾驶感知论文知识图谱

本文将博客中已有的自动驾驶感知论文笔记组织为一张可交互的知识图谱,标注了各论文之间的技术传承与对比关系。

交互式知识图谱

点击节点跳转到对应笔记,拖拽/滚轮缩放调整视角。工具栏按钮:+放大、-缩小、⊙适应窗口、⛶全屏。

图例说明

  • 深灰:骨干网络演进(ResNet → ViT → Swin Transformer)
  • 🟠 橙色:2D/3D 检测与跟踪基础(CenterNet → CenterTrack → CenterPoint;DETR → Deformable DETR;DINO DETR;PointPillars)
  • 🟡 金色:经典 2D 检测演进(R-CNN → YOLO → SSD → RetinaNet → EfficientDet)
  • 🔵 蓝色:LSS 系 BEV 显式投影 + 融合(LSS → BEVDet → BEVDepth → BEVFusion)
  • 🟢 绿色:Transformer Query 系隐式路线 + 矢量化建图(BEVFormer / PETR → StreamPETR;MapTR/v2)
  • 🟣 紫色:车道线检测分支(LaneAF)
  • 🪵 青色:3D 语义占用预测(Mask2Former → OccFormer)
  • 🧡 深橙:端到端自动驾驶(UniAD → SparseDrive 系列 → DiffusionDrive)
  • 实线:直接继承/改进关系 | 虚线:对比/互补关系

技术路线总览

自动驾驶纯视觉感知经历了三条并行演进的技术路线,最终在 2023 年趋于收敛:

路线一:显式 BEV 投影(LSS 系)

LSS (2020) → BEVDet (2021) → BEVDepth (2022) → BEVFusion (2022)

这条路线的核心思想是显式构建深度分布,将 2D 图像特征”抬升”到 3D 空间再”拍扁”到 BEV 平面。

阶段 论文 关键突破
奠基 LSS 隐式深度外积 + Pillar Pooling,建立 2D→BEV 的基本管线
工程化 BEVDet 模块化四段式架构,解耦图像/BEV 数据增强
深度强化 BEVDepth LiDAR 显式深度监督,突破 60% NDS 天花板
多模态融合 BEVFusion BEV 级融合统一 Camera + LiDAR,70.2% mAP

路线二:隐式 Transformer Query(PETR 系)

DETR (2020) → Deformable DETR (2021) → PETR (2022) → StreamPETR (2023)
↓ ↓ ↑
DINO DETR (2023) Sparse4D (2022) ─────┘
[query 显式化+去噪] ↑
BEVFormer (2022) [时序思路]

这条路线完全不需要显式深度估计,用 3D 位置编码和 Transformer 注意力实现 2D→3D 的映射。

阶段 论文 关键突破
起源 DETR 集合预测 + 匈牙利匹配,消除 anchor/NMS
高效化 Deformable DETR 多尺度可变形注意力,10× 加速收敛,解决小物体检测
3D 扩展 PETR 3D 位置编码注入 2D 特征,无需 3D→2D 投影
稀疏采样 Sparse4D 4D 关键点稀疏采样替代全局注意力,时序实例传播
时序融合 StreamPETR 物体级时序传播 + 记忆队列,67.6% NDS
Query 强化 DINO DETR 动态锚框 + 去噪训练 + 对比去噪,63.3 AP(COCO SOTA)

路线三:BEV Transformer(BEVFormer)

DETR (2020) → Deformable DETR (2021) + LSS (2020) → BEVFormer (2022)

BEVFormer 是两条路线的混合体:用 Deformable DETR 的多尺度可变形注意力机制去查询生成 BEV 特征(类似 LSS 系的输出),同时引入时序自注意力。Deformable DETR 的可变形注意力是 BEVFormer 空间交叉注意力(SCA)的核心组件。

路线四:在线矢量化高精地图(MapTR 系)

DETR (2020) → Deformable DETR (2021) → MapTR (2022) → MapTRv2 (2023)

LSS/BEVFormer [BEV 特征提取]

MapTR 将 DETR 的集合预测范式迁移到矢量化高精地图构建任务,提出置换等价建模解决地图元素点序歧义、分层查询编码实例-点结构信息。MapTRv2 进一步引入解耦注意力、一对多匹配和密集监督,性能大幅提升。MapTR 的输出可直接供下游规划模块(如 VAD)使用。

阶段 论文 关键突破
范式建立 MapTR 置换等价建模 + 分层查询匹配,首次实时矢量化地图构建(25.1 FPS)
全面增强 MapTRv2 解耦注意力 + 一对多匹配 + 密集监督 + centerline 支持,73.4 mAP

路线五:3D 语义占用预测(OccFormer)

LSS (2020) + BEVDepth (2022) → OccFormer (2023)

Mask2Former (2022) [掩码分类解码器]

Deformable DETR (2021) [MSDeformAttn 像素解码器]

3D 语义占用预测将 BEV 感知从 2D 平面扩展到 3D 体素空间,为自动驾驶提供更完整的场景理解。Mask2Former 提出的掩码注意力和掩码分类范式是 OccFormer 解码器的直接上游,OccFormer 用双路径 Transformer(局部 BEV 切片 + 全局 BEV 池化)替代传统 3D 卷积,首次将 Mask2Former 的掩码分类范式适配到 3D 占用预测。

阶段 论文 关键突破
范式建立 OccFormer 双路径 Transformer 编码器 + 3D Mask2Former 解码器,12.32 mIoU(SemanticKITTI)

LiDAR 点云编码基础:PointPillars

PointPillars (CVPR 2019) 提出柱体化编码,将 3D 点云沿 z 轴组织为垂直柱体,用简化版 PointNet 学习柱体特征后散射为 2D 伪图像,从而完全消除 3D 卷积。以 62 Hz 的实时推理速度达到 KITTI SOTA,比 VoxelNet 快 14 倍。PointPillars 的柱体编码被 CenterPoint 继承用于 3D 检测头,也被 BEVFusion 用作 LiDAR 分支的编码器。

通用分割架构:Mask2Former

Mask2Former (CVPR 2022) 提出掩码注意力(masked attention),将交叉注意力约束在预测掩码的前景区域内,首次让通用分割架构在全景、实例、语义分割三个任务上全面超越所有专用架构(57.8 PQ / 50.1 AP / 57.7 mIoU)。其像素解码器使用 Deformable DETR 的多尺度可变形注意力(MSDeformAttn),掩码分类范式被 OccFormer 直接继承并适配到 3D 占用预测。

路线六:端到端自动驾驶(UniAD → SparseDrive 系列 → DiffusionDrive)

BEVFormer (2022) + Deformable DETR (2021) → UniAD (2023)

Sparse4D (2022) + MapTR (2022) ──────────→ SparseDrive (2024)
↓ ↘
DiffusionDrive SparseDriveV2 (2026)
(2025) [分解词表+层级评分]

端到端自动驾驶将感知、预测、规划统一到一个可微分框架中,代表了自动驾驶技术从模块化向一体化的演进。UniAD 以 BEVFormer 为 BEV 编码器,级联五大模块,首次验证了全栈端到端的可行性(CVPR 2023 Best Paper)。SparseDrive 证明 BEV 特征并非必需品——稀疏实例表示训练快 7.2× 且性能更优。此后规划路线出现分化:DiffusionDrive 走生成派,用截断扩散策略仅 2 步去噪即可生成多模态轨迹(88.1 PDMS);而 SparseDriveV2 走评分派,将轨迹拆为路径×速度的 26 万候选组合,配合粗到细层级筛选,以 92.0 PDMS 反超所有生成式方法。这场”生成 vs 评分”的路线之争,连同正在兴起的 VLA/世界模型路线(DriveVLA-W0、AutoVLA 等),构成了当前端到端自动驾驶最活跃的三条前沿。

阶段 论文 关键突破
全栈端到端 UniAD 5 模块级联 + 统一查询接口,CVPR 2023 Best Paper,avg L2 1.03m
稀疏端到端 SparseDrive 去 BEV + 对称稀疏感知 + 并行运动规划 + 碰撞感知重评分,9.0 FPS(UniAD 的 5×)
生成式规划 DiffusionDrive 截断扩散策略(20 锚点 2 步去噪)+ 级联 Transformer 解码器,88.1 PDMS,45 FPS
评分式规划 SparseDriveV2 分解式词表(path×velocity 26 万候选)+ 粗到细层级评分,92.0 PDMS / 90.1 EPDMS

骨干网络演进:ResNet → ViT → Swin Transformer

自动驾驶感知模型的骨干网络经历了从 CNN 到 Transformer 的范式转变:

ResNet (CVPR 2016) 通过残差连接($\mathbf{y} = \mathcal{F}(\mathbf{x}) + \mathbf{x}$)解决了深层网络的退化问题,使网络深度从 ~20 层突破至 152 层。ResNet-50 成为计算机视觉中”默认 baseline”——CenterNet、DETR、Deformable DETR、PETR、BEVDet 等几乎所有检测/BEV 论文都以 R50 作为基准对比。其 4 阶段层级特征图(C2-C5)定义了后续所有骨干网络的输出范式。

ViT (ICLR 2021) 将图像切割为 16×16 的 patch 序列,直接输入标准 Transformer,证明在大规模数据预训练下 CNN 的归纳偏置并非必要。ViT-H/14 在 ImageNet 上达到 88.55% top-1 准确率。然而标准 ViT 缺乏层级特征输出,且 $O(n^2)$ 注意力难以处理高分辨率输入,不直接适用于密集预测任务。

Swin Transformer (ICCV 2021) 融合了 ViT 的全局注意力优势与 ResNet 的层级结构设计:通过窗口注意力 + 移位策略实现线性复杂度,4 阶段层级特征图与 ResNet C2-C5 完全对齐。Swin-L(ImageNet-22K 预训练)在 COCO test-dev 上达到 58.7 box AP,成为 BEVFormer、UniAD 等自动驾驶感知模型的默认骨干网络。V2 进一步引入 residual-post-norm + cosine attention + Log-CPB,支持大规模训练和跨分辨率迁移。

三者构成了骨干网络的演进链:ResNet (残差 CNN 基准) → ViT (纯 Transformer 验证) → Swin (层级 Transformer 实用化)

独立分支:车道线检测

LaneAF (2021) 是独立于 BEV 范式的车道线检测方法,用亲和场将像素关联问题转化为高效的序列解码,不依赖上述任何技术路线。

论文间核心关系详解

CenterNet → CenterTrack → CenterPoint:从 2D 检测到 3D 跟踪的演化链

  • CenterNet (2019) 建立”物体 = 中心点”的核心范式,用关键点检测替代 anchor-based 方法
  • CenterTrack (2020) 将中心点扩展到跟踪:前一帧图像 + 跟踪 heatmap 作为额外输入,预测帧间 2D offset,贪心匹配即可关联身份,无需 Kalman Filter 或 ReID
  • CenterPoint (2021) 将中心点范式推广到 3D LiDAR 检测:BEV map-view 上的 heatmap 检测 + 速度预测跟踪,两阶段 face-center 特征 refinement。在 nuScenes 和 Waymo 上均为 SOTA,NeurIPS 2020 挑战赛 Top-4 中 3 家采用

三篇论文共同验证了中心点表示的普适性——从 2D 图像到视频跟踪再到 3D 点云,同一范式在不同维度和模态上均有效。

CenterNet → DETR:从 Anchor-Free 到 Set Prediction

CenterNet 证明了物体可以用单个点表示,彻底摆脱了 anchor box 的束缚。DETR 更进一步,将检测建模为集合预测问题,用匈牙利匹配替代 NMS 后处理。两者共同奠定了”无需手工设计先验”的检测新范式。

Deformable DETR → DINO DETR:DETR 家族的性能封顶

DINO DETR 系列(DAB-DETR → DN-DETR → DINO)系统性地解决了 DETR 的两大瓶颈。DAB-DETR 将可学习 query 显式化为 4D 动态锚框 $(x,y,w,h)$,赋予 query 明确的空间含义;DN-DETR 通过在 decoder 注入带噪声的 GT 信息进行去噪训练,稳定匈牙利匹配过程,将收敛从 50 epochs 缩短至 12 epochs;DINO 在此基础上引入对比去噪(CDN)、混合查询选择和 Look Forward Twice,以 63.3 AP(SwinL + Objects365)成为 COCO test-dev SOTA,首次让端到端 Transformer 检测器全面超越传统检测器。DINO DETR 的 query 显式化和去噪训练思想对后续 query-based 3D 检测方法具有重要启发意义。

LSS → BEVDet → BEVDepth:深度估计的三级跳

  • LSS 提出视锥体特征 + Pillar Pooling 的基本框架,但深度靠网络隐式学习,误差较大
  • BEVDet 将 LSS 工程化,拆分为四个独立模块,并引入 BEV 空间的数据增强
  • BEVDepth 直接用 LiDAR 点云做深度的显式监督(BCE Loss),将 GT 深度与预测深度的 18.8% mAP 差距大幅缩小

DETR → Deformable DETR → PETR → StreamPETR:从 2D 到高效 3D 再到时序

  • DETR 在 2D 检测中验证了 Transformer + 匈牙利匹配的可行性
  • Deformable DETR 用多尺度可变形注意力解决 DETR 的收敛慢和小物体差问题,将训练从 500 epochs 缩短至 50 epochs,成为后续 3D 检测的基础模块
  • DINO DETR 在 DAB-DETR(query 显式化为 4D 锚框)和 DN-DETR(去噪训练稳定匹配)基础上引入对比去噪、混合查询和 Look Forward Twice,以 63.3 AP 成为 COCO SOTA,首次让 DETR 家族全面超越传统检测器
  • PETR 将 3D 坐标通过 MLP 编码为位置嵌入,注入 2D 特征,让 query 直接在 3D 空间中推理
  • StreamPETR 将 PETR 的 query 变成时序载体:上一帧的检测 query 直接传递到下一帧,用记忆队列 + 运动感知归一化实现高效时序建模

LSS vs BEVFormer:两种 BEV 构建方式

维度 LSS 系 BEVFormer
BEV 构建方式 显式深度投影 可变形注意力查询
深度依赖 强(深度越准越好) 弱(注意力隐式学习)
时序融合 需额外模块 原生 RNN 式自注意力
速度 快(规则投影) 慢(注意力计算)
代表性能 BEVDepth 60.0% NDS BEVFormer 56.9% NDS

BEVFusion:两条路线的终极融合

BEVFusion 证明了 BEV 空间是最优的多传感器融合空间——Camera 分支用 LSS 管线生成 BEV 特征,LiDAR 分支用体素化生成 BEV 特征,两者在 BEV 空间用简单卷积融合即可达到 72.9% NDS。其中 Efficient BEV Pooling 将 LSS 的瓶颈操作从 500ms 加速到 12ms(40× 加速)。

DETR + LSS/BEVFormer → MapTR/MapTRv2:从目标检测到矢量化地图构建

MapTR 将 DETR 的集合预测范式从 3D 目标检测迁移到在线矢量化高精地图构建——地图元素(车道线、人行横道、道路边界)被建模为带有等价置换组的点集,通过分层查询和分层匈牙利匹配端到端学习。BEV 特征提取来自 LSS 系(MapTRv2 默认 BEVPoolv2)或 Deformable Attention(兼容 BEVFormer),交叉注意力直接使用 Deformable DETR 的可变形注意力。MapTRv2 进一步引入解耦注意力、一对多匹配和密集监督,将 mAP 从 50.3 提升至 61.5(24ep)。MapTR 的矢量化输出可直接供下游规划模块(如 VAD)使用,打通了感知→规划的数据闭环。

LSS + Mask2Former → OccFormer:从 BEV 平面到 3D 体素占用

OccFormer 代表了自动驾驶感知从 BEV 平面向 3D 体素空间的升维。它使用 LSS 管线将多视图图像提升到 3D 体素特征,然后用双路径 Transformer 编码器(局部逐 BEV 切片窗口注意力 + 全局 BEV 池化 + ASPP)替代传统 3D 卷积,实现长距离、动态的 3D 特征编码(参数少 39%、计算量少 38%)。解码器直接继承 Mask2Former 的掩码分类范式并适配到 3D,提出 preserve-pooling(最大池化保护稀疏掩码)和 class-guided sampling(频率加权采样),解决 3D 空间中的稀疏性和类别不平衡问题。在 SemanticKITTI 上以 12.32 mIoU 超越 MonoScene 11%,在 nuScenes 上以 70.8 mIoU 首次以纯视觉突破 70% LiDAR 分割精度。

PointPillars → CenterPoint → BEVFusion:LiDAR BEV 检测的演化链

PointPillars 奠定了 LiDAR 柱体化编码 + 2D 伪图像 的基本范式,完全消除了 3D 卷积。CenterPoint 继承这一编码方式,用 anchor-free 的中心点热力图检测头替换 SSD 的 anchor-based 头,在 nuScenes 和 Waymo 上均达到 SOTA。BEVDet 的检测头同样采用 CenterPoint 风格,BEVFusion 的 LiDAR 分支直接使用 PointPillars 风格的编码器。这条链路展示了 LiDAR 检测从 编码简化 → 检测头升级 → 多模态融合 的演进路径。

BEVFormer + DETR → UniAD → SparseDrive 系列 → DiffusionDrive:端到端自动驾驶四部曲

  • UniAD (2023) 是首个将全栈自动驾驶统一到一个端到端框架中的工作。它以 BEVFormer 为 BEV 编码器,级联五大模块(TrackFormer、MapFormer、MotionFormer、OccFormer、Planner),通过统一的 query 接口实现模块间信息传递。CVPR 2023 Best Paper,证明了联合优化所有任务优于独立优化各模块。但 BEV 特征计算昂贵(1709 GFLOPs, 1.8 FPS),且规划为单模态回归。
  • SparseDrive (2024) 发现 BEV 特征不是端到端的必需品——用 Sparse4D 风格的稀疏实例(特征+锚框)替代 BEV,FLOPs 降至 192G(-89%),FPS 提升至 9.0(5× 加速)。并行运动规划器将 ego 视为”又一个智能体”参与联合预测,碰撞感知重评分比 UniAD 的后处理优化更安全(碰撞率 0.08% vs 0.61%)。
  • DiffusionDrive (2025) 引入截断扩散策略解决规划的多模态建模:用 20 个 K-Means 锚点初始化扩散起点,仅需 2 步去噪(vs 标准扩散 20 步),以 88.1 PDMS 创 NAVSIM 新纪录,45 FPS 实时运行。轻量级 Transformer 级联解码器替代 UNet,参数减少 39%。
  • SparseDriveV2 (2026) 反击生成式路线:通过 Scaling Study 证明静态词表的瓶颈在覆盖率而非范式。将轨迹分解为 path(几何路径)× velocity(速度轮廓),以 1024×256=262,144 条候选覆盖极密轨迹空间,配合粗到细的分解评分(262K→400 条精细打分),以 92.0 PDMS / 90.1 EPDMS 超越所有生成式方法,证明 “Scoring is All You Need”。

四篇论文展示了端到端自动驾驶从全栈验证、稀疏高效化、生成式多模态规划到评分式超密覆盖的完整脉络。值得注意的是,DiffusionDrive 和 SparseDriveV2 分别代表了”生成”与”评分”两种截然不同的规划哲学,两者在 NAVSIM 榜单上的交替领先构成了当前最活跃的技术前沿。与此同时,VLA 路线(DriveVLA-W0、AutoVLA 等)在语义推理和世界想象维度上持续探索,端到端自动驾驶的终局形态仍在演化中。

推荐阅读顺序

如果你想系统学习这个领域,建议按以下顺序阅读:

  1. CenterNet — 理解 anchor-free 检测的核心思想
  2. CenterTrackCenterPoint — 理解中心点范式如何从 2D 检测扩展到跟踪和 3D 点云
  3. DETR — 理解 Transformer 在检测中的应用
  4. Deformable DETR — 理解可变形注意力如何解决 DETR 的实用性问题(BEVFormer 的核心组件)
  5. DINO DETR — 理解去噪训练和动态锚框如何让 DETR 家族达到 COCO SOTA
  6. ResNet — 理解残差学习和深度网络基础(几乎所有检测/BEV 论文的默认 R50 baseline)
  7. ViT — 理解纯 Transformer 如何处理视觉任务(CNN → Transformer 范式转变的起点)
  8. Swin Transformer — 理解层级视觉 Transformer 骨干(BEVFormer / UniAD 的默认骨干)
  9. PointPillars — 理解 LiDAR 柱体化编码如何消除 3D 卷积瓶颈(CenterPoint / BEVFusion 的基础)
  10. LSS — 理解 2D→BEV 的基本框架(最关键的一篇
  11. BEVDetBEVDepth — 理解 LSS 管线的工程化与深度改进
  12. PETRSparse4DStreamPETR — 理解无深度依赖的 Query 方案、稀疏采样及时序建模
  13. BEVFormer — 理解 Transformer 的另一种 BEV 构建方式
  14. BEVFusion — 理解多传感器融合的终极方案
  15. MapTRMapTRv2 — 理解在线矢量化高精地图构建的 DETR-like 范式
  16. Mask2Former — 理解掩码注意力与通用分割架构(OccFormer 解码器的直接上游)
  17. OccFormer — 理解 3D 语义占用预测及 Mask2Former 的 3D 适配
  18. UniAD — 理解首个全栈端到端自动驾驶框架(CVPR 2023 Best Paper)
  19. SparseDriveSparseDriveV2 — 理解稀疏表示如何替代 BEV,以及超密分解词表+层级评分如何超越生成式方法
  20. DiffusionDrive — 理解生成式扩散模型如何用于实时多模态规划(与 SparseDriveV2 形成评分 vs 生成的路线对比)
  21. LaneAF — 了解车道线检测的不同思路

补充阅读:如需了解 2D 目标检测的基础演进脉络(anchor-based → anchor-free → Transformer),可参考博客中的 RCNN 系列YOLO 系列SSDRetinaNetEfficientDet 笔记。骨干网络的演进请参阅 ResNetViT

更多自动驾驶技术演进的宏观视角,请参阅 自动驾驶的觉醒:从感知像素到重构世界的五次跃迁