SparseDrive 系列：从稀疏表示到评分即一切的端到端自动驾驶（V1 → V2）

Task: End-to-End Autonomous Driving (Detection, Tracking, Mapping, Motion Prediction, Planning)
Method: Sparse Scene Representation, Factorized Trajectory Vocabulary, Coarse-to-Fine Scoring
Venue: arXiv 2024 / arXiv 2026
Year: 2024 → 2026
Paper: SparseDrive / SparseDriveV2
Code: SparseDrive

摘要

现有端到端自动驾驶方法依赖计算昂贵的 BEV 特征，且预测和规划的设计过于简单，安全性不足。本文提出 SparseDrive，一种以稀疏表示为核心的端到端自动驾驶范式。SparseDrive 包含两大核心模块：对称稀疏感知（Symmetric Sparse Perception）用对称的模型结构统一检测、跟踪和在线建图，学习全稀疏的场景表示；并行运动规划器（Parallel Motion Planner）同时预测周围智能体和自车的多模态轨迹，并通过分层规划选择策略（命令过滤 + 碰撞感知重评分）选出安全轨迹。SparseDrive-S 仅用 ResNet-50，在所有任务上超越 UniAD，同时训练快 7.2×、推理快 5.0×（9.0 FPS）；SparseDrive-B 以 0.58m avg L2 和 0.06% avg Col 将规划性能推至新高。

核心论点：端到端自动驾驶不需要昂贵的 BEV 特征——稀疏实例表示（特征+锚框/折线）足以编码驾驶场景，而运动预测与规划的高度相似性允许并行设计，将规划建模为多模态问题并通过碰撞感知重评分保障安全。

问题与动机

UniAD 等 BEV-Centric 端到端方法取得了突破性进展，但存在两大瓶颈：

问题	影响	UniAD 具体表现
BEV 特征计算昂贵	训练慢、推理慢、显存大	1709 GFLOPs，1.8 FPS，50G 显存
预测/规划设计简单	规划安全性不足	碰撞后处理反而增加碰撞率
预测和规划串行	忽略自车对周围智能体的影响	单向信息流
规划单模态	无法表达多种合理行为	只预测一条确定性轨迹

SparseDrive 观察到运动预测和规划有三个被忽视的相似性：

两者都需要建模高阶双向交互（自车影响他车，他车影响自车）
两者都需要语义+几何信息（但前人仅为周围智能体提取这些信息，忽略了自车）
两者都是多模态问题（但前人规划只输出单条确定性轨迹）

核心洞察

洞察 1：全稀疏表示——不需要 BEV 特征的端到端驾驶

传统做法：BEVFormer/LSS 构建稠密 BEV 特征图（200×200×256），然后在 BEV 上做检测、分割和规划。

SparseDrive 做法：用稀疏实例（特征向量 + 锚框/折线）表示场景。检测分支用 900 个锚框（位置+尺寸+朝向+速度 11 维），建图分支用 100 个锚折线（20 点 × 2 维）。两者共享对称的解码器结构：可变形聚合 → FFN → 输出层 → 时序交叉注意力 → 自注意力。

为什么更好：去掉 BEV 特征后，FLOPs 从 1709G（UniAD）降至 192G（SparseDrive-S），FPS 从 1.8 提升至 9.0（5.0× 加速），训练时间从 144h 降至 20h（7.2× 加速），GPU 显存从 50G 降至 15.2G。更关键的是，稀疏表示的性能不降反升——SparseDrive-S 比 UniAD 在检测 mAP、跟踪 AMOTA、运动 minADE 上均更优。

洞察 2：并行预测+规划——自车也是一个智能体

传统做法（UniAD/VAD）：先做运动预测（预测周围智能体未来轨迹），再用预测结果辅助规划。信息单向流动，自车对周围智能体的影响被忽略。

SparseDrive 做法：用前视摄像头最小特征图的全局池化初始化 ego 实例（提供语义信息），将 ego 与周围智能体实例拼接，在同一个 Transformer 中做 agent-temporal、agent-agent、agent-map 交互，然后同时解码所有智能体（含自车）的多模态轨迹。

为什么更好：消融实验（Table 4）显示，去掉并行设计（改为串行）后运动预测 minADE 从 0.623 上升至 0.641，碰撞率从 0.08% 上升至 0.10%。去掉 ego 实例初始化后 avg L2 从 0.61 升至 0.63，碰撞率从 0.08% 升至 0.11%。

洞察 3：碰撞感知重评分——后处理优化反而有害

传统做法（UniAD）：推理时用 Newton 法基于占用图优化规划轨迹。看似合理，但 SparseDrive 发现这种后处理不仅未降低碰撞率，反而使碰撞率从 0.25% 上升至 0.61%（重新实现的碰撞率指标下），L2 从 0.61 上升至 0.73。

SparseDrive 做法：规划输出 6 条多模态轨迹。先按导航命令（左转/右转/直行）筛选子集，再用碰撞感知重评分——利用运动预测的 top-2 轨迹检查自车各规划方案是否碰撞，将碰撞方案的分数置零，最后选最高分轨迹。

为什么更好：碰撞感知重评分将碰撞率从 0.12% 降至 0.08%（Table 5），几乎不增加 L2 误差（0.61→0.61），且保持端到端范式一致性（不破坏梯度流）。

要记住的 3 个数字：

0.06% avg Col：SparseDrive-B 的碰撞率，比 VAD（0.21%）降低 71.4%
9.0 FPS：SparseDrive-S 的推理速度，比 UniAD（1.8）快 5.0×
192 GFLOPs：SparseDrive-S 的计算量，仅为 UniAD（1709）的 11%

方法设计

整体架构

多视图 6 cam
      │
      ▼
┌───────────────┐
│ ResNet + FPN  │  多尺度特征 I = {I_s}
└─────┬─────────┘
      │
      ├────────────────────────────────┐
      ▼                                ▼
┌────────────────────┐     ┌────────────────────┐
│ 检测分支（对称）      │     │ 建图分支（对称）     │
│ 900 锚框 (11维)     │     │ 100 锚折线 (20点)   │
│ 1 non-temporal dec │     │ 1 non-temporal dec │
│ + 5 temporal dec   │     │ + 5 temporal dec   │
│ → F_d, B_d 实例     │     │ → F_m, L_m 实例    │
│ + ID 分配 →跟踪      │     │                    │
└──┬─────────────────┘     └──┬─────────────────┘
   │                          │
   ▼                          ▼
┌──────────────────────────────────────────────┐
│ 并行运动规划器                                  │
│ ① Ego 初始化：AvgPool(front_cam_S)            │
│ ② Agent-temporal cross-attn (自身历史)        │
│ ③ Agent-agent self-attn (所有智能体含ego)      │
│ ④ Agent-map cross-attn (地图元素)             │
│ ⑤ 同时解码 motion (K=6,T=12) + plan (K=6,T=6) │
└──┬───────────────────────────────────────────┘
   │
   ▼
┌──────────────────────────┐
│ 分层规划选择               │
│ ① 按命令(左/右/直)筛选     │
│ ② 碰撞感知重评分           │
│ ③ 选最高分轨迹 τ*          │
└──────────────────────────┘

关键组件

模块	输入	输出	核心设计
对称稀疏感知（检测）	多尺度图像特征 $I$	实例特征 $F_d$ + 锚框 $B_d$	可变形聚合 + 时序交叉注意力 + 自注意力
对称稀疏感知（建图）	同上	实例特征 $F_m$ + 锚折线 $L_m$	与检测分支结构对称，折线用 20 点表示
稀疏跟踪	时序传播实例	带 ID 的跟踪结果	Sparse4Dv3 式 ID 分配，无跟踪损失
Ego 实例初始化	前视最小特征图	$F_e, B_e$	全局平均池化 + 辅助 ego status 预测
并行运动规划器	$F_d, F_e, F_m$	多模态轨迹 + 分数	agent-temporal/agent-agent/agent-map 交互
碰撞感知重评分	多模态规划方案 + 运动预测	最终安全轨迹	top-2 预测轨迹碰撞检测，碰撞方案分数置零

损失函数：

$$\mathcal{L} = \mathcal{L}_{\text{det}} + \mathcal{L}_{\text{map}} + \mathcal{L}_{\text{motion}} + \mathcal{L}_{\text{plan}} + \mathcal{L}_{\text{depth}}$$

各项均包含分类（Focal）+ 回归（L1）损失。运动和规划采用 Winner-Takes-All 策略（ADE 最小的模态为正样本）。规划额外预测当前 ego status（速度、加速度、角速度、转角）。

实验与分析

主要结果

nuScenes val 规划（Table 2b）

方法	L2 1s↓	L2 2s↓	L2 3s↓	avg L2↓	Col 1s↓	Col 2s↓	Col 3s↓	avg Col↓
UniAD†	0.45	0.70	1.04	0.73	0.62	0.58	0.63	0.61
VAD†	0.41	0.70	1.05	0.72	0.03	0.19	0.43	0.21
SparseDrive-S	0.29	0.58	0.96	0.61	0.01	0.05	0.18	0.08
SparseDrive-B	0.29	0.55	0.91	0.58	0.01	0.02	0.13	0.06

注：UniAD/VAD 结果为 SparseDrive 重新实现的碰撞率指标（考虑 ego heading 变化，使用 BBox 重叠而非占用图）。

感知与运动预测

指标	UniAD	SparseDrive-S	SparseDrive-B
det mAP↑	0.380	0.418	0.496
det NDS↑	0.498	0.525	0.588
AMOTA↑	0.359	0.386	0.501
IDS↓	906	886	632
map mAP↑	—	55.1	56.2
minADE↓	0.71	0.62	0.60
minFDE↓	1.02	0.99	0.96

效率对比（Table 3）

方法	训练显存	训练时间	FLOPs	参数量	FPS
UniAD	50.0G	144h	1709G	125.0M	1.8
SparseDrive-S	15.2G	20h	192G	85.9M	9.0
SparseDrive-B	17.6G	30h	787G	104.7M	7.3

消融实验：验证三个洞察

运动规划器设计消融（Table 4）

ID	PAL	EII	MTM	ATA	CAR	minADE↓	avg L2↓	avg Col↓
1	✓	✓	✓	✓	✓	0.623	0.61	0.08
2	—	✓	✓	✓	✓	0.641	0.61	0.10
3	✓	—	✓	✓	✓	0.621	0.63	0.11
4	✓	✓	—	✓	✓	0.626	0.69	0.25
5	✓	✓	✓	—	✓	0.634	0.77	0.16

PAL=并行设计, EII=Ego 初始化, MTM=多模态规划, ATA=Agent-temporal attention, CAR=碰撞感知重评分。

关键发现：

去掉多模态规划（ID-4）碰撞率暴增至 0.25%（3.1×）
去掉 agent-temporal attention（ID-5）L2 误差升至 0.77m（+26%）
碰撞感知重评分（ID-1 vs ID-6=无 CAR）将碰撞率从 0.12% 降至 0.08%

失效场景分析

在线建图：单任务方法 MapTR 的 mAP（58.7）仍高于 SparseDrive-B（56.2），端到端优化未能充分释放建图性能
开环评估局限：nuScenes 开环评估无法全面衡量安全性和交互能力
数据规模：nuScenes 仅 1000 场景，不足以发挥端到端学习的全部潜力

工程实践

训练配置

Backbone:       ResNet-50 (S) / ResNet-101 (B)
Input:          256×704 (S) / 512×1408 (B), 6 cameras
Training:
  Stage-1:      100 epochs (S) / 80 epochs (B), 感知模块, bs=8(S)/4(B)
  Stage-2:      10 epochs, 全模块端到端, bs=6(S)/4(B)
Optimizer:      AdamW, Cosine Annealing
GPUs:           8× RTX 4090 (24GB)
Detection:      900 anchors, 6 decoder layers (1 non-temporal + 5 temporal)
Online Map:     100 map anchors, 20 points/element
Motion Memory:  3 stored frames, instance-level temporal attention
Motion Modes:   K=6 (prediction & planning)
Prediction:     T_m=12 steps (6s)
Planning:       T_p=6 steps (3s)
Feature Dim:    256
Flash Attention: 启用

复现要点

对称感知的关键是锚框初始化：检测和建图的锚框位置均由训练集 K-Means 聚类得到，直接影响收敛速度
Ego 速度不能用 GT：直接用 GT 速度初始化 ego 锚框会导致 ego status 信息泄露，需通过辅助任务预测速度并用上一帧预测值初始化
碰撞检测用 BBox 重叠：不同于 UniAD 用 0.5m 占用图（会产生假碰撞），SparseDrive 用 ego BBox 和障碍物 BBox 的实际重叠判断碰撞，并考虑 ego heading 变化
跟踪无需额外损失：Sparse4Dv3 式 ID 分配——检测置信度超过 0.2 即锁定 ID，时序传播自然保持身份一致性
Flash Attention 显存优化：在 self-attention 和 cross-attention 中使用 Flash Attention，显存从约 25G 降至 15.2G（SparseDrive-S）

性能优化方向

精度提升：

更大 backbone（R101，512×1408）从 S→B 提升检测 mAP +7.8，碰撞率降低 25%（0.08→0.06）
更长时序记忆（当前仅 3 帧），可引入更长历史提升运动预测精度

速度优化：

SparseDrive-S 已达 9.0 FPS（4090），进一步轻量化可考虑减少锚框数量或解码器层数
去掉深度辅助损失可减少训练开销，但可能影响感知精度

研究启示

可迁移的思想

稀疏表示替代 BEV：对于不需要稠密空间推理的任务，稀疏实例表示可大幅降低计算成本，适用于端到端机器人操控、无人机导航等资源受限场景
并行预测+规划：将自车视为”又一个智能体”参与联合预测，通过共享 Transformer 天然建模双向交互
碰撞感知重评分 > 后处理优化：基于预测结果的碰撞检测比基于占用图的后处理优化更安全、更高效
对称模型设计：检测和建图用相同的解码器结构（仅锚框定义不同），简化了代码实现和调参

方法局限

开环评估（nuScenes）不足以证明闭环安全性
无 BEV 特征意味着缺少稠密空间信息，对 OccFormer 式的占用预测不友好
碰撞重评分依赖运动预测精度——如果预测不准，碰撞检测也不可靠

技术影响

SparseDrive 证明了 BEV 特征不是端到端自动驾驶的必需品，稀疏表示在性能和效率上均可超越 BEV-Centric 方案
并行预测+规划的范式被后续 DiffusionDrive 等方法采纳，成为新的设计趋势
提出的碰撞率评估修正（考虑 ego heading + BBox 重叠）被社区采用为更公平的规划评估标准

SparseDrive 解决了端到端自动驾驶的表示效率问题——证明稀疏表示足以替代 BEV。但自动驾驶的核心挑战还有另一面：规划质量。当 DiffusionDrive 等生成式方法将多模态规划推向新高度时，SparseDriveV2 从评分范式出发，给出了一个出人意料的回答。

SparseDriveV2：Scoring is All You Need

Paper: SparseDriveV2

摘要

SparseDriveV2 重新审视了端到端自动驾驶中”静态候选轨迹 vs 生成式轨迹”的路线之争。通过 Scaling Study 发现，Hydra-MDP 的静态轨迹锚点从 1024 增至 16384 时，EPDMS 从 85.02 持续上涨至 87.35，直到 32768 才因显存溢出停止——性能并未饱和，先撞墙的是算力。这说明过去对静态词表的不满，核心原因不是”打分派范式不行”，而是词表覆盖率不够。

基于这一判断，SparseDriveV2 提出两项核心创新：（1）分解式轨迹词表（Factorized Vocabulary）：将轨迹拆分为几何路径 path 和速度轮廓 velocity profile 的自由组合，以 1024 × 256 = 262,144 条候选覆盖极密的轨迹空间；（2）粗到细的分解评分（Coarse-to-Fine Factorized Scoring）：先分别对 path 和 velocity 粗打分淘汰，再对少量高质量组合精细打分，将实际评分量从 26 万压缩至 400 条。最终在 NAVSIM 上达到 92.0 PDMS 和 90.1 EPDMS，以纯评分范式刷新端到端自动驾驶 SOTA。

核心论点：静态候选轨迹的瓶颈不在于范式，而在于覆盖率——通过路径×速度的分解式组合，词表可以指数级扩展而不爆显存；配合粗到细的层级评分，”Scoring is All You Need”足以匹敌乃至超越生成式方法。

问题与动机

SparseDriveV2 诞生于端到端自动驾驶的三条主线交汇之处：

路线	代表方法	核心思路	局限
Planning-Oriented 统一范式	UniAD, SparseDrive	全栈端到端，打通感知-预测-规划	规划为单模态/有限模态
多模态规划候选集之争	VADv2, Hydra-MDP, DiffusionDrive, GoalFlow	静态词表打分 / 扩散生成 / Flow Matching	静态词表太稀 or 生成模型复杂
VLA / 世界模型	DriveVLA-W0, Alpamayo-1, AutoVLA	语义理解 + 未来想象 + 动作规划一体化	实时性差，安全约束难满足

在第二条路线中，生成式方法（DiffusionDrive、DiffusionDriveV2、GoalFlow）日益强势，但伴随着额外的 proposal 生成、去噪过程、mode collapse 等复杂性。SparseDriveV2 反其道而行，回到评分范式，追问一个被大多数人放弃的问题：

核心痛点：静态候选轨迹真的不行了吗？还是只是没人把词表做得够密？

核心洞察

洞察 1：Scaling Study——静态词表的真正瓶颈是覆盖率

传统认知：静态轨迹锚点（如 Hydra-MDP 的 8192 条）天然不如生成式方法灵活，无法覆盖复杂场景的真实可行解。

SparseDriveV2 发现：在 Hydra-MDP 上做 Scaling 实验，锚点数从 1024 逐步增至 32768：

轨迹锚点数	EPDMS
1024	85.02
4096	86.58
8192	86.83
16384	87.35
32768	显存溢出

关键结论：性能在 16384 anchors 时仍未饱和，先撞墙的是显存——说明”打分派天然不如生成派”的结论下得太早，覆盖率不够才是根本原因。

洞察 2：分解式轨迹词表——路径 × 速度 = 组合爆炸

传统做法：将完整轨迹 $\tau = \{(x_t, y_t)\}_{t=1}^T$ 作为不可分的整体聚类成锚点。想覆盖”左转半径 × 并线角度 × 加减速节奏 × 刹停时机”等组合，词表指数级膨胀。

SparseDriveV2 做法：将轨迹分解为两个独立维度：

$$\tau = \text{Compose}(P, V)$$

其中几何路径 $P$ 描述”车往哪走”（空间形状），速度轮廓 $V$ 描述”以多快节奏走”（时间演化）。速度由相邻时刻位置差分得到：

$$v_t = \sqrt{(x_{t+1}-x_t)^2 + (y_{t+1}-y_t)^2} / \Delta t$$

累计路程 $s_t = \sum_{i=1}^{t} v_i \cdot \Delta t$ 定义了沿路径的行进距离，再通过插值即可将 path 和 velocity 重新组合为一条完整轨迹。

词表规模从一维枚举变为组合式扩展：

$$|\text{Vocabulary}| = N_{\text{path}} \times N_{\text{velocity}}$$

最终设置 1024 path anchors × 256 velocity anchors = 262,144 候选轨迹，是此前常见 8192 anchors 的 32× 密度。

为什么更好：同样的存储和聚类成本下，词表密度指数级提升。”路线模板”和”速度节奏”的自由配对，让词表不再需要穷举所有时空组合。

洞察 3：粗到细的分解评分——层级筛选压缩计算量

传统做法：给定场景特征，对每条候选轨迹逐一打分 $s_i = f(\tau_i, \mathbf{c})$。当词表涨到 26 万条时，逐条评分的计算量线性爆炸。

SparseDriveV2 做法：既然轨迹已被拆为 path 和 velocity，评分也可以分两阶段做：

Coarse Factorized Scoring：分别给 path anchors 和 velocity anchors 独立粗打分，保留 top-128 paths 和 top-64 velocities
Fine-Grained Trajectory Scoring：第二层进一步收缩至 20 paths × 20 velocities = 400 条 composed trajectories，再做精细打分

打分器不是单纯的 imitation learning，同时使用 path loss、velocity loss、trajectory-level soft classification loss，再叠加 rule-based metric supervision：

$$\mathcal{L}_{\text{V2}} = \mathcal{L}_{\text{path}} + \mathcal{L}_{\text{velocity}} + \mathcal{L}_{\text{traj-cls}} + \mathcal{L}_{\text{metric}}$$

为什么更好：从 262,144 → top-128×64 → 20×20 = 400，实际精细打分的轨迹数量压缩了 655×。层级筛选让超密词表不仅可行，而且高效。

要记住的 3 个数字：

262,144：分解式词表覆盖的候选轨迹总数（1024 path × 256 velocity），是传统 8192 anchors 的 32×
400：最终进入精细打分的轨迹数量（20 paths × 20 velocities），仅占词表的 0.15%
90.1 EPDMS：NAVSIM 新 SOTA，纯评分范式超越 DiffusionDrive（88.1）等生成式方法

方法设计

整体架构

$$\tau^* = \arg\max_{\tau \in \text{Top-}k(\mathcal{P}) \times \text{Top-}k(\mathcal{V})} \; f_{\text{fine}}(\text{Compose}(p, v), \mathbf{c})$$

多视图 6 cam
      │
      ▼
┌───────────────┐
│ Backbone+FPN  │  多尺度特征 I
└─────┬─────────┘
      │
      ▼
┌─────────────────────────────────────┐
│ SparseDrive V1 感知编码器             │
│ (稀疏检测 + 建图 + Ego 初始化)         │
│ → 场景特征 c                          │
└─────┬───────────────────────────────┘
      │
      ▼
┌─────────────────────────────────────────────────────┐
│ 分解式轨迹词表 (Factorized Vocabulary)                │
│                                                     │
│   Path Anchors (1024)    Velocity Anchors (256)     │
│   ┌─────────┐            ┌─────────┐                │
│   │ 几何路径 │      ×     │ 速度轮廓 │ = 262,144 候选  │
│   └─────────┘            └─────────┘                │
└─────┬───────────────────────────────────────────────┘
      │
      ▼
┌─────────────────────────────────────────────────────┐
│ 粗到细评分 (Coarse-to-Fine Scoring)                   │
│                                                     │
│ Layer 1: Coarse Factorized Scoring                  │
│   path: 1024 → top-128                              │
│   velocity: 256 → top-64                            │
│                                                     │
│ Layer 2: Fine Factorized Scoring                    │
│   path: 128 → top-20                                │
│   velocity: 64 → top-20                             │
│   compose: 20 × 20 = 400 trajectories               │
│                                                     │
│ Fine-Grained Scoring → τ*                           │
└─────────────────────────────────────────────────────┘

关键组件

模块	输入	输出	核心设计
分解式词表	训练集轨迹	1024 paths + 256 velocities	path 和 velocity 分别 K-Means 聚类
Path-Scene Interaction	path anchors + 场景特征	path 评分	可变形聚合（Deformable Aggregation）
Coarse Scoring	path/velocity + 场景特征	top-128 paths, top-64 velocities	独立通道打分，淘汰低分候选
Trajectory Composition	top-k paths × top-k velocities	composed trajectories	沿 path 按 velocity 距离插值重组
Trajectory Re-conditioning	composed 轨迹 + 场景特征	精调后轨迹	条件注入增强场景一致性
Fine-Grained Scoring	400 条 composed 轨迹	最终 $\tau^*$	精细逐条打分，选最高分

实验与分析

NAVSIM 主要结果

方法	范式	PDMS↑	EPDMS↑
Hydra-MDP (8192)	静态词表打分	—	86.83
DiffusionDrive	截断扩散生成	88.1	—
GoalFlow	Flow Matching	—	—
SparseDriveV2	分解式词表打分	92.0	90.1

消融实验

词表密度消融

Path × Velocity	候选总数	EPDMS
512 × 128	65,536	88.7
1024 × 256	262,144	90.1

词表从 512×128 提升至 1024×256，EPDMS 提升 +1.4，且未出现性能饱和，验证了更密词表持续有效的核心判断。

打分架构消融

组件	效果
Path-Scene Interaction → Deformable Aggregation	有效提升
+ Trajectory Re-conditioning	继续提升
最强配置 = 更密分解词表 + 更强 Coarse-to-Fine 打分	90.1 EPDMS

V1 → V2 演进对比

维度	SparseDrive V1	SparseDriveV2
核心问题	BEV 特征计算昂贵	静态词表覆盖不足
解法	稀疏实例替代 BEV	分解式词表 + 层级打分
轨迹表示	6 条多模态轨迹（回归）	262,144 条候选（path×velocity 组合）
规划范式	并行运动规划器 + 碰撞感知重评分	Coarse-to-Fine Factorized Scoring
评估基准	nuScenes 开环	NAVSIM
PDMS	—	92.0
关键洞察	BEV 不是必需品	Scoring is All You Need

研究启示（V2）

V2 可迁移的思想

分解式表示：将高维搜索空间拆分为低维子空间的组合，适用于任何需要大规模候选集的决策问题（机器人抓取姿态、无人机路径规划等）
Coarse-to-Fine 层级筛选：在超大候选空间中，先粗筛再精选是平衡覆盖率与计算量的通用策略
Scaling Study 先行：在提出新方法前，先做 scaling 分析验证当前方法的真正瓶颈，避免”解决了一个不存在的问题”

V2 技术定位

SparseDriveV2 选择了一条与主流生成式方法相反的路线。DiffusionDrive/DiffusionDriveV2/GoalFlow 等方法通过动态生成 proposal 解决多模态规划；VLA 路线（DriveVLA-W0、Alpamayo-1、AutoVLA）则将语言推理和世界模型引入驾驶。SparseDriveV2 证明了：只要词表足够密、打分足够强，纯评分范式的性能天花板远高于此前的认知。两条路线并非对立，而是对端到端自动驾驶不同维度的探索。