自动驾驶感知论文知识图谱

本文将博客中已有的自动驾驶感知论文笔记组织为一张可交互的知识图谱，标注了各论文之间的技术传承与对比关系。

交互式知识图谱

点击节点跳转到对应笔记，拖拽/滚轮缩放调整视角。工具栏按钮：＋放大、－缩小、⊙适应窗口、⛶全屏。

图例说明（按彩虹色谱由”基础 → 应用”分层）：

🔴 红色：骨干网络（ResNet → ViT → Swin Transformer）
🟠 橙色：经典 2D 检测演进（R-CNN → YOLO → SSD → RetinaNet → EfficientDet）
🟡 黄色：2D/3D 检测与跟踪基础（CenterNet → CenterTrack → CenterPoint；DETR → Deformable DETR → DINO DETR；PointPillars）
🟢 绿色：LSS 系 BEV 显式投影 + 融合（LSS → BEVDet → BEVDepth → BEVFusion）
🩵 青色：Transformer Query 系 + 矢量化建图（DETR3D → PETR → Sparse4D → StreamPETR；BEVFormer；HDMapNet → VectorMapNet → MapTR → MapTRv2）
🔵 蓝色：3D 语义占用预测（Mask2Former → OccFormer）
🟣 紫色：端到端自动驾驶（UniAD → VAD / VADv2 → SparseDrive 系列 → DiffusionDrive）
🩷 粉色：车道线检测分支（LaneAF）
实线：直接继承/改进关系 | 虚线：对比/互补关系

技术路线总览

自动驾驶纯视觉感知经历了三条并行演进的技术路线，最终在 2023 年趋于收敛：

路线一：显式 BEV 投影（LSS 系）

LSS (2020) → BEVDet (2021) → BEVDepth (2022) → BEVFusion (2022)

这条路线的核心思想是显式构建深度分布，将 2D 图像特征”抬升”到 3D 空间再”拍扁”到 BEV 平面。

阶段	论文	关键突破
奠基	LSS	隐式深度外积 + Pillar Pooling，建立 2D→BEV 的基本管线
工程化	BEVDet	模块化四段式架构，解耦图像/BEV 数据增强
深度强化	BEVDepth	LiDAR 显式深度监督，突破 60% NDS 天花板
多模态融合	BEVFusion	BEV 级融合统一 Camera + LiDAR，70.2% mAP

路线二：隐式 Transformer Query（PETR 系）

DETR (2020) → Deformable DETR (2021) → DETR3D (2021) → PETR (2022) → StreamPETR (2023)
                  ↓                       ↓                  ↓               ↑
            DINO DETR (2023)             [3D query 反投影]   Sparse4D (2022) ─────┘
            [query 显式化+去噪]                                            ↑
                                                              BEVFormer (2022) [时序思路]

这条路线完全不需要显式深度估计，用 3D query 的反投影或 3D 位置编码 + Transformer 注意力实现 2D→3D 的映射。

阶段	论文	关键突破
起源	DETR	集合预测 + 匆牙利匹配，消除 anchor/NMS
高效化	Deformable DETR	多尺度可变形注意力，10× 加速收敛，解决小物体检测
3D 范式奠基	DETR3D	3D-to-2D query 反投影 + set prediction，首次在多相机 3D 检测中去 NMS、去 dense depth
3D 扩展	PETR	3D 位置编码注入 2D 特征，无需 3D→2D 投影
稀疏采样	Sparse4D	4D 关键点稀疏采样替代全局注意力，时序实例传播
时序融合	StreamPETR	物体级时序传播 + 记忆队列，67.6% NDS
Query 强化	DINO DETR	动态锚框 + 去噪训练 + 对比去噪，63.3 AP（COCO SOTA）

路线三：BEV Transformer（BEVFormer）

DETR (2020) → Deformable DETR (2021) + LSS (2020) → BEVFormer (2022)

BEVFormer 是两条路线的混合体：用 Deformable DETR 的多尺度可变形注意力机制去查询生成 BEV 特征（类似 LSS 系的输出），同时引入时序自注意力。Deformable DETR 的可变形注意力是 BEVFormer 空间交叉注意力（SCA）的核心组件。

路线四：在线矢量化高精地图（HDMapNet → VectorMapNet → MapTR 系）

HDMapNet (2022) → VectorMapNet (2023) → MapTR (2023) → MapTRv2 (2023)
     ↑                  ↑                     ↑
PointPillars      DETR / Deformable DETR   LSS / BEVFormer
[LiDAR 编码]      [set prediction]         [BEV 特征提取]

这条路线经历了”栅格 + 后处理 → 端到端矢量化 → 并行 polyline query”的三步演进。HDMapNet 是在线本地高精地图任务的奠基之作，用 MLP 视图变换 + 语义 / 实例 / 方向三分支 + DBSCAN 后处理首次把 HD 地图重塑为车载实时推理任务，并配套提出基于 Chamfer 距离的实例 mAP 评测协议。VectorMapNet 跳过栅格中介，用 DETR 风格的 element detector 预测关键点 + 自回归 polyline generator 离散生成顶点序列，端到端把 Fusion mAP 从 31.0% 抬到 52.3%（+14.2 mAP）。MapTR 进一步把”自回归生成”改造为”polyline query 一次性并行预测”，并提出置换等价建模解决地图元素点序歧义、分层查询编码实例-点结构信息，达成 25.1 FPS 实时推理。MapTRv2 引入解耦注意力、一对多匹配和密集监督，性能大幅提升至 73.4 mAP。MapTR 的输出可直接供下游规划模块（如 VAD / SparseDrive）使用。

阶段	论文	关键突破
栅格基线	HDMapNet	MLP 视图变换 + 语义/实例/方向三分支 + DBSCAN 向量化，39.7% IoU / 35.2% mAP（Fusion）
端到端矢量化开端	VectorMapNet	DETR-style 关键点检测 + 自回归 polyline generator，52.3% mAP（Fusion，+14.2 vs HDMapNet）
并行范式建立	MapTR	置换等价建模 + 分层查询匹配 + 一次性并行 polyline 预测，25.1 FPS 实时矢量化
全面增强	MapTRv2	解耦注意力 + 一对多匹配 + 密集监督 + centerline 支持，73.4 mAP

路线五：3D 语义占用预测（OccFormer）

LSS (2020) + BEVDepth (2022) → OccFormer (2023)
                                     ↑
                          Mask2Former (2022) [掩码分类解码器]
                               ↑
                    Deformable DETR (2021) [MSDeformAttn 像素解码器]

3D 语义占用预测将 BEV 感知从 2D 平面扩展到 3D 体素空间，为自动驾驶提供更完整的场景理解。Mask2Former 提出的掩码注意力和掩码分类范式是 OccFormer 解码器的直接上游，OccFormer 用双路径 Transformer（局部 BEV 切片 + 全局 BEV 池化）替代传统 3D 卷积，首次将 Mask2Former 的掩码分类范式适配到 3D 占用预测。

阶段	论文	关键突破
范式建立	OccFormer	双路径 Transformer 编码器 + 3D Mask2Former 解码器，12.32 mIoU（SemanticKITTI）

LiDAR 点云编码基础：PointPillars

PointPillars (CVPR 2019) 提出柱体化编码，将 3D 点云沿 z 轴组织为垂直柱体，用简化版 PointNet 学习柱体特征后散射为 2D 伪图像，从而完全消除 3D 卷积。以 62 Hz 的实时推理速度达到 KITTI SOTA，比 VoxelNet 快 14 倍。PointPillars 的柱体编码被 CenterPoint 继承用于 3D 检测头，也被 BEVFusion 用作 LiDAR 分支的编码器。

通用分割架构：Mask2Former

Mask2Former (CVPR 2022) 提出掩码注意力（masked attention），将交叉注意力约束在预测掩码的前景区域内，首次让通用分割架构在全景、实例、语义分割三个任务上全面超越所有专用架构（57.8 PQ / 50.1 AP / 57.7 mIoU）。其像素解码器使用 Deformable DETR 的多尺度可变形注意力（MSDeformAttn），掩码分类范式被 OccFormer 直接继承并适配到 3D 占用预测。

路线六：端到端自动驾驶（UniAD → VAD → SparseDrive → DiffusionDrive）

BEVFormer (2022) + Deformable DETR (2021) → UniAD (2023)
                                                ↓
                                  MapTR (2023) + Planning = VAD (2023)
                                                ↓
                                            VADv2 (2024) [概率规划 4096 词表]
                                                ↓
Sparse4D (2022) + MapTR (2023) ──────────→ SparseDrive (2024)
                                                ↓         ↘
                                         DiffusionDrive    SparseDriveV2 (2026)
                                           (2025)         [分解词表+层级评分]

端到端自动驾驶将感知、预测、规划统一到一个可微分框架中，代表了自动驾驶技术从模块化向一体化的演进。UniAD 以 BEVFormer 为 BEV 编码器，级联五大模块，首次验证了全栈端到端的可行性（CVPR 2023 Best Paper）。VAD 把 dense BEV 与 tracking/occupancy 一并丢掉，只保留 vector 化的 map / agent / ego 表示，把 avg L2 从 UniAD 的 1.03 m 降到 0.72 m、推理速度 ×2.5；VADv2 进一步把”回归一条轨迹”换成”在 4096 条轨迹词汇表上学习 $p(a|o)$ 概率分布”，是后续所有”评分派”规划方法的范式基线，并把 LLM 风格的”动作分布建模”引入端到端规划。SparseDrive 证明 BEV 特征并非必需品——稀疏实例表示训练快 7.2× 且性能更优。此后规划路线出现分化：DiffusionDrive 走生成派，用截断扩散策略仅 2 步去噪即可生成多模态轨迹（88.1 PDMS）；而 SparseDriveV2 走评分派，将轨迹拆为路径×速度的 26 万候选组合，配合粗到细层级筛选，以 92.0 PDMS 反超所有生成式方法。这场”生成 vs 评分”的路线之争源头都可以追溯到 VAD/VADv2 的 vector 化表示与轨迹词汇表设计；连同正在兴起的 VLA / 世界模型路线（DriveVLA-W0、AutoVLA 等），构成了当前端到端自动驾驶最活跃的三条前沿。

阶段	论文	关键突破
全栈端到端	UniAD	5 模块级联 + 统一查询接口，CVPR 2023 Best Paper，avg L2 1.03 m
向量化端到端	VAD	MapTR + Planning，向量化 map/agent/ego + 三项几何约束，avg L2 0.72 m / Col 0.22% / 4.5 FPS（vs UniAD −30% / +2.5×）
概率规划	VADv2	4096 条轨迹词汇表 + Probabilistic Field（NeRF 式编码 + Transformer 评分），CARLA Town05 Long DS 85.1（+9.0 vs DriveMLM）
稀疏端到端	SparseDrive	去 BEV + 对称稀疏感知 + 并行运动规划 + 碰撞感知重评分，9.0 FPS（UniAD 的 5×）
生成式规划	DiffusionDrive	截断扩散策略（20 锚点 2 步去噪）+ 级联 Transformer 解码器，88.1 PDMS，45 FPS
评分式规划	SparseDriveV2	分解式词表（path×velocity 26 万候选）+ 粗到细层级评分，92.0 PDMS / 90.1 EPDMS

骨干网络演进：ResNet → ViT → Swin Transformer

自动驾驶感知模型的骨干网络经历了从 CNN 到 Transformer 的范式转变：

ResNet (CVPR 2016) 通过残差连接（$\mathbf{y} = \mathcal{F}(\mathbf{x}) + \mathbf{x}$）解决了深层网络的退化问题，使网络深度从 ~20 层突破至 152 层。ResNet-50 成为计算机视觉中”默认 baseline”——CenterNet、DETR、Deformable DETR、PETR、BEVDet 等几乎所有检测/BEV 论文都以 R50 作为基准对比。其 4 阶段层级特征图（C2-C5）定义了后续所有骨干网络的输出范式。

ViT (ICLR 2021) 将图像切割为 16×16 的 patch 序列，直接输入标准 Transformer，证明在大规模数据预训练下 CNN 的归纳偏置并非必要。ViT-H/14 在 ImageNet 上达到 88.55% top-1 准确率。然而标准 ViT 缺乏层级特征输出，且 $O(n^2)$ 注意力难以处理高分辨率输入，不直接适用于密集预测任务。

Swin Transformer (ICCV 2021) 融合了 ViT 的全局注意力优势与 ResNet 的层级结构设计：通过窗口注意力 + 移位策略实现线性复杂度，4 阶段层级特征图与 ResNet C2-C5 完全对齐。Swin-L（ImageNet-22K 预训练）在 COCO test-dev 上达到 58.7 box AP，成为 BEVFormer、UniAD 等自动驾驶感知模型的默认骨干网络。V2 进一步引入 residual-post-norm + cosine attention + Log-CPB，支持大规模训练和跨分辨率迁移。

三者构成了骨干网络的演进链：ResNet (残差 CNN 基准) → ViT (纯 Transformer 验证) → Swin (层级 Transformer 实用化)。

独立分支：车道线检测

LaneAF (2021) 是独立于 BEV 范式的车道线检测方法，用亲和场将像素关联问题转化为高效的序列解码，不依赖上述任何技术路线。

论文间核心关系详解

CenterNet → CenterTrack → CenterPoint：从 2D 检测到 3D 跟踪的演化链

CenterNet (2019) 建立”物体 = 中心点”的核心范式，用关键点检测替代 anchor-based 方法
CenterTrack (2020) 将中心点扩展到跟踪：前一帧图像 + 跟踪 heatmap 作为额外输入，预测帧间 2D offset，贪心匹配即可关联身份，无需 Kalman Filter 或 ReID
CenterPoint (2021) 将中心点范式推广到 3D LiDAR 检测：BEV map-view 上的 heatmap 检测 + 速度预测跟踪，两阶段 face-center 特征 refinement。在 nuScenes 和 Waymo 上均为 SOTA，NeurIPS 2020 挑战赛 Top-4 中 3 家采用

三篇论文共同验证了中心点表示的普适性——从 2D 图像到视频跟踪再到 3D 点云，同一范式在不同维度和模态上均有效。

CenterNet → DETR：从 Anchor-Free 到 Set Prediction

CenterNet 证明了物体可以用单个点表示，彻底摆脱了 anchor box 的束缚。DETR 更进一步，将检测建模为集合预测问题，用匈牙利匹配替代 NMS 后处理。两者共同奠定了”无需手工设计先验”的检测新范式。

Deformable DETR → DINO DETR：DETR 家族的性能封顶

DINO DETR 系列（DAB-DETR → DN-DETR → DINO）系统性地解决了 DETR 的两大瓶颈。DAB-DETR 将可学习 query 显式化为 4D 动态锚框 $(x,y,w,h)$，赋予 query 明确的空间含义；DN-DETR 通过在 decoder 注入带噪声的 GT 信息进行去噪训练，稳定匈牙利匹配过程，将收敛从 50 epochs 缩短至 12 epochs；DINO 在此基础上引入对比去噪（CDN）、混合查询选择和 Look Forward Twice，以 63.3 AP（SwinL + Objects365）成为 COCO test-dev SOTA，首次让端到端 Transformer 检测器全面超越传统检测器。DINO DETR 的 query 显式化和去噪训练思想对后续 query-based 3D 检测方法具有重要启发意义。

LSS → BEVDet → BEVDepth：深度估计的三级跳

LSS 提出视锥体特征 + Pillar Pooling 的基本框架，但深度靠网络隐式学习，误差较大
BEVDet 将 LSS 工程化，拆分为四个独立模块，并引入 BEV 空间的数据增强
BEVDepth 直接用 LiDAR 点云做深度的显式监督（BCE Loss），将 GT 深度与预测深度的 18.8% mAP 差距大幅缩小

DETR → Deformable DETR → DETR3D → PETR → StreamPETR：从 2D 到高效 3D 再到时序

DETR 在 2D 检测中验证了 Transformer + 匆牙利匹配的可行性
Deformable DETR 用多尺度可变形注意力解决 DETR 的收敛慢和小物体差问题，将训练从 500 epochs 缩短至 50 epochs，成为后续 3D 检测的基础模块
DETR3D 是 sparse query 3D 检测路线的真正起点：提出”3D query 反投影到多相机 + bilinear 采样 + set-to-set loss”的范式，在 nuScenes 上首次不依赖 dense depth 与 NMS 及达 SOTA（NDS 0.425, val），成为后续 PETR / Sparse4D / StreamPETR 共同的 baseline
DINO DETR 在 DAB-DETR（query 显式化为 4D 锚框）和 DN-DETR（去噪训练稳定匹配）基础上引入对比去噪、混合查询和 Look Forward Twice，以 63.3 AP 成为 COCO SOTA，首次让 DETR 家族全面超越传统检测器
PETR 把 DETR3D 的”反投影采样”换成 “3D 位置编码 + global attention”，将几何从 projection-based 转为 embedding-based，对标定误差更鲁棒
StreamPETR 将 PETR 的 query 变成时序载体：上一帧的检测 query 直接传递到下一帧，用记忆队列 + 运动感知归一化实现高效时序建模

LSS vs BEVFormer：两种 BEV 构建方式

维度	LSS 系	BEVFormer
BEV 构建方式	显式深度投影	可变形注意力查询
深度依赖	强（深度越准越好）	弱（注意力隐式学习）
时序融合	需额外模块	原生 RNN 式自注意力
速度	快（规则投影）	慢（注意力计算）
代表性能	BEVDepth 60.0% NDS	BEVFormer 56.9% NDS

BEVFusion：两条路线的终极融合

BEVFusion 证明了 BEV 空间是最优的多传感器融合空间——Camera 分支用 LSS 管线生成 BEV 特征，LiDAR 分支用体素化生成 BEV 特征，两者在 BEV 空间用简单卷积融合即可达到 72.9% NDS。其中 Efficient BEV Pooling 将 LSS 的瓶颈操作从 500ms 加速到 12ms（40× 加速）。

DETR + LSS/BEVFormer → MapTR/MapTRv2：从目标检测到矢量化地图构建

MapTR 将 DETR 的集合预测范式从 3D 目标检测迁移到在线矢量化高精地图构建——地图元素（车道线、人行横道、道路边界）被建模为带有等价置换组的点集，通过分层查询和分层匈牙利匹配端到端学习。BEV 特征提取来自 LSS 系（MapTRv2 默认 BEVPoolv2）或 Deformable Attention（兼容 BEVFormer），交叉注意力直接使用 Deformable DETR 的可变形注意力。MapTRv2 进一步引入解耦注意力、一对多匹配和密集监督，将 mAP 从 50.3 提升至 61.5（24ep）。MapTR 的矢量化输出可直接供下游规划模块（如 VAD）使用，打通了感知→规划的数据闭环。

LSS + Mask2Former → OccFormer：从 BEV 平面到 3D 体素占用

OccFormer 代表了自动驾驶感知从 BEV 平面向 3D 体素空间的升维。它使用 LSS 管线将多视图图像提升到 3D 体素特征，然后用双路径 Transformer 编码器（局部逐 BEV 切片窗口注意力 + 全局 BEV 池化 + ASPP）替代传统 3D 卷积，实现长距离、动态的 3D 特征编码（参数少 39%、计算量少 38%）。解码器直接继承 Mask2Former 的掩码分类范式并适配到 3D，提出 preserve-pooling（最大池化保护稀疏掩码）和 class-guided sampling（频率加权采样），解决 3D 空间中的稀疏性和类别不平衡问题。在 SemanticKITTI 上以 12.32 mIoU 超越 MonoScene 11%，在 nuScenes 上以 70.8 mIoU 首次以纯视觉突破 70% LiDAR 分割精度。

PointPillars → CenterPoint → BEVFusion：LiDAR BEV 检测的演化链

PointPillars 奠定了 LiDAR 柱体化编码 + 2D 伪图像 的基本范式，完全消除了 3D 卷积。CenterPoint 继承这一编码方式，用 anchor-free 的中心点热力图检测头替换 SSD 的 anchor-based 头，在 nuScenes 和 Waymo 上均达到 SOTA。BEVDet 的检测头同样采用 CenterPoint 风格，BEVFusion 的 LiDAR 分支直接使用 PointPillars 风格的编码器。这条链路展示了 LiDAR 检测从 编码简化 → 检测头升级 → 多模态融合 的演进路径。

BEVFormer + DETR → UniAD → SparseDrive 系列 → DiffusionDrive：端到端自动驾驶四部曲

UniAD (2023) 是首个将全栈自动驾驶统一到一个端到端框架中的工作。它以 BEVFormer 为 BEV 编码器，级联五大模块（TrackFormer、MapFormer、MotionFormer、OccFormer、Planner），通过统一的 query 接口实现模块间信息传递。CVPR 2023 Best Paper，证明了联合优化所有任务优于独立优化各模块。但 BEV 特征计算昂贵（1709 GFLOPs, 1.8 FPS），且规划为单模态回归。
SparseDrive (2024) 发现 BEV 特征不是端到端的必需品——用 Sparse4D 风格的稀疏实例（特征+锚框）替代 BEV，FLOPs 降至 192G（-89%），FPS 提升至 9.0（5× 加速）。并行运动规划器将 ego 视为”又一个智能体”参与联合预测，碰撞感知重评分比 UniAD 的后处理优化更安全（碰撞率 0.08% vs 0.61%）。
DiffusionDrive (2025) 引入截断扩散策略解决规划的多模态建模：用 20 个 K-Means 锚点初始化扩散起点，仅需 2 步去噪（vs 标准扩散 20 步），以 88.1 PDMS 创 NAVSIM 新纪录，45 FPS 实时运行。轻量级 Transformer 级联解码器替代 UNet，参数减少 39%。
SparseDriveV2 (2026) 反击生成式路线：通过 Scaling Study 证明静态词表的瓶颈在覆盖率而非范式。将轨迹分解为 path（几何路径）× velocity（速度轮廓），以 1024×256=262,144 条候选覆盖极密轨迹空间，配合粗到细的分解评分（262K→400 条精细打分），以 92.0 PDMS / 90.1 EPDMS 超越所有生成式方法，证明 “Scoring is All You Need”。

四篇论文展示了端到端自动驾驶从全栈验证、稀疏高效化、生成式多模态规划到评分式超密覆盖的完整脉络。值得注意的是，DiffusionDrive 和 SparseDriveV2 分别代表了”生成”与”评分”两种截然不同的规划哲学，两者在 NAVSIM 榜单上的交替领先构成了当前最活跃的技术前沿。与此同时，VLA 路线（DriveVLA-W0、AutoVLA 等）在语义推理和世界想象维度上持续探索，端到端自动驾驶的终局形态仍在演化中。