SparseDrive 系列:从稀疏表示到评分即一切的端到端自动驾驶(V1 → V2)

Task: End-to-End Autonomous Driving (Detection, Tracking, Mapping, Motion Prediction, Planning)
Method: Sparse Scene Representation, Factorized Trajectory Vocabulary, Coarse-to-Fine Scoring
Venue: arXiv 2024 / arXiv 2026
Year: 2024 → 2026
Paper: SparseDrive / SparseDriveV2
Code: SparseDrive

摘要

现有端到端自动驾驶方法依赖计算昂贵的 BEV 特征,且预测和规划的设计过于简单,安全性不足。本文提出 SparseDrive,一种以稀疏表示为核心的端到端自动驾驶范式。SparseDrive 包含两大核心模块:对称稀疏感知(Symmetric Sparse Perception)用对称的模型结构统一检测、跟踪和在线建图,学习全稀疏的场景表示;并行运动规划器(Parallel Motion Planner)同时预测周围智能体和自车的多模态轨迹,并通过分层规划选择策略(命令过滤 + 碰撞感知重评分)选出安全轨迹。SparseDrive-S 仅用 ResNet-50,在所有任务上超越 UniAD,同时训练快 7.2×、推理快 5.0×(9.0 FPS);SparseDrive-B 以 0.58m avg L2 和 0.06% avg Col 将规划性能推至新高。

核心论点:端到端自动驾驶不需要昂贵的 BEV 特征——稀疏实例表示(特征+锚框/折线)足以编码驾驶场景,而运动预测与规划的高度相似性允许并行设计,将规划建模为多模态问题并通过碰撞感知重评分保障安全。

问题与动机

UniAD 等 BEV-Centric 端到端方法取得了突破性进展,但存在两大瓶颈:

问题 影响 UniAD 具体表现
BEV 特征计算昂贵 训练慢、推理慢、显存大 1709 GFLOPs,1.8 FPS,50G 显存
预测/规划设计简单 规划安全性不足 碰撞后处理反而增加碰撞率
预测和规划串行 忽略自车对周围智能体的影响 单向信息流
规划单模态 无法表达多种合理行为 只预测一条确定性轨迹

SparseDrive 观察到运动预测和规划有三个被忽视的相似性:

  1. 两者都需要建模高阶双向交互(自车影响他车,他车影响自车)
  2. 两者都需要语义+几何信息(但前人仅为周围智能体提取这些信息,忽略了自车)
  3. 两者都是多模态问题(但前人规划只输出单条确定性轨迹)

核心洞察

洞察 1:全稀疏表示——不需要 BEV 特征的端到端驾驶

传统做法:BEVFormer/LSS 构建稠密 BEV 特征图(200×200×256),然后在 BEV 上做检测、分割和规划。

SparseDrive 做法:用稀疏实例(特征向量 + 锚框/折线)表示场景。检测分支用 900 个锚框(位置+尺寸+朝向+速度 11 维),建图分支用 100 个锚折线(20 点 × 2 维)。两者共享对称的解码器结构:可变形聚合 → FFN → 输出层 → 时序交叉注意力 → 自注意力。

为什么更好:去掉 BEV 特征后,FLOPs 从 1709G(UniAD)降至 192G(SparseDrive-S),FPS 从 1.8 提升至 9.0(5.0× 加速),训练时间从 144h 降至 20h(7.2× 加速),GPU 显存从 50G 降至 15.2G。更关键的是,稀疏表示的性能不降反升——SparseDrive-S 比 UniAD 在检测 mAP、跟踪 AMOTA、运动 minADE 上均更优。

洞察 2:并行预测+规划——自车也是一个智能体

传统做法(UniAD/VAD):先做运动预测(预测周围智能体未来轨迹),再用预测结果辅助规划。信息单向流动,自车对周围智能体的影响被忽略。

SparseDrive 做法:用前视摄像头最小特征图的全局池化初始化 ego 实例(提供语义信息),将 ego 与周围智能体实例拼接,在同一个 Transformer 中做 agent-temporal、agent-agent、agent-map 交互,然后同时解码所有智能体(含自车)的多模态轨迹。

为什么更好:消融实验(Table 4)显示,去掉并行设计(改为串行)后运动预测 minADE 从 0.623 上升至 0.641,碰撞率从 0.08% 上升至 0.10%。去掉 ego 实例初始化后 avg L2 从 0.61 升至 0.63,碰撞率从 0.08% 升至 0.11%。

洞察 3:碰撞感知重评分——后处理优化反而有害

传统做法(UniAD):推理时用 Newton 法基于占用图优化规划轨迹。看似合理,但 SparseDrive 发现这种后处理不仅未降低碰撞率,反而使碰撞率从 0.25% 上升至 0.61%(重新实现的碰撞率指标下),L2 从 0.61 上升至 0.73。

SparseDrive 做法:规划输出 6 条多模态轨迹。先按导航命令(左转/右转/直行)筛选子集,再用碰撞感知重评分——利用运动预测的 top-2 轨迹检查自车各规划方案是否碰撞,将碰撞方案的分数置零,最后选最高分轨迹。

为什么更好:碰撞感知重评分将碰撞率从 0.12% 降至 0.08%(Table 5),几乎不增加 L2 误差(0.61→0.61),且保持端到端范式一致性(不破坏梯度流)。

要记住的 3 个数字

  • 0.06% avg Col:SparseDrive-B 的碰撞率,比 VAD(0.21%)降低 71.4%
  • 9.0 FPS:SparseDrive-S 的推理速度,比 UniAD(1.8)快 5.0×
  • 192 GFLOPs:SparseDrive-S 的计算量,仅为 UniAD(1709)的 11%

方法设计

整体架构

SparseDrive 架构图
多视图 6 cam
      │
      ▼
┌───────────────┐
│ ResNet + FPN  │  多尺度特征 I = {I_s}
└─────┬─────────┘
      │
      ├────────────────────────────────┐
      ▼                                ▼
┌────────────────────┐     ┌────────────────────┐
│ 检测分支(对称)      │     │ 建图分支(对称)     │
│ 900 锚框 (11维)     │     │ 100 锚折线 (20点)   │
│ 1 non-temporal dec │     │ 1 non-temporal dec │
│ + 5 temporal dec   │     │ + 5 temporal dec   │
│ → F_d, B_d 实例     │     │ → F_m, L_m 实例    │
│ + ID 分配 →跟踪      │     │                    │
└──┬─────────────────┘     └──┬─────────────────┘
   │                          │
   ▼                          ▼
┌──────────────────────────────────────────────┐
│ 并行运动规划器                                  │
│ ① Ego 初始化:AvgPool(front_cam_S)            │
│ ② Agent-temporal cross-attn (自身历史)        │
│ ③ Agent-agent self-attn (所有智能体含ego)      │
│ ④ Agent-map cross-attn (地图元素)             │
│ ⑤ 同时解码 motion (K=6,T=12) + plan (K=6,T=6) │
└──┬───────────────────────────────────────────┘
   │
   ▼
┌──────────────────────────┐
│ 分层规划选择               │
│ ① 按命令(左/右/直)筛选     │
│ ② 碰撞感知重评分           │
│ ③ 选最高分轨迹 τ*          │
└──────────────────────────┘

关键组件

模块 输入 输出 核心设计
对称稀疏感知(检测) 多尺度图像特征 $I$ 实例特征 $F_d$ + 锚框 $B_d$ 可变形聚合 + 时序交叉注意力 + 自注意力
对称稀疏感知(建图) 同上 实例特征 $F_m$ + 锚折线 $L_m$ 与检测分支结构对称,折线用 20 点表示
稀疏跟踪 时序传播实例 带 ID 的跟踪结果 Sparse4Dv3 式 ID 分配,无跟踪损失
Ego 实例初始化 前视最小特征图 $F_e, B_e$ 全局平均池化 + 辅助 ego status 预测
并行运动规划器 $F_d, F_e, F_m$ 多模态轨迹 + 分数 agent-temporal/agent-agent/agent-map 交互
碰撞感知重评分 多模态规划方案 + 运动预测 最终安全轨迹 top-2 预测轨迹碰撞检测,碰撞方案分数置零

损失函数

$$\mathcal{L} = \mathcal{L}_{\text{det}} + \mathcal{L}_{\text{map}} + \mathcal{L}_{\text{motion}} + \mathcal{L}_{\text{plan}} + \mathcal{L}_{\text{depth}}$$

各项均包含分类(Focal)+ 回归(L1)损失。运动和规划采用 Winner-Takes-All 策略(ADE 最小的模态为正样本)。规划额外预测当前 ego status(速度、加速度、角速度、转角)。

实验与分析

主要结果

nuScenes val 规划(Table 2b)

方法 L2 1s↓ L2 2s↓ L2 3s↓ avg L2↓ Col 1s↓ Col 2s↓ Col 3s↓ avg Col↓
UniAD† 0.45 0.70 1.04 0.73 0.62 0.58 0.63 0.61
VAD† 0.41 0.70 1.05 0.72 0.03 0.19 0.43 0.21
SparseDrive-S 0.29 0.58 0.96 0.61 0.01 0.05 0.18 0.08
SparseDrive-B 0.29 0.55 0.91 0.58 0.01 0.02 0.13 0.06

注:UniAD/VAD 结果为 SparseDrive 重新实现的碰撞率指标(考虑 ego heading 变化,使用 BBox 重叠而非占用图)。

感知与运动预测

指标 UniAD SparseDrive-S SparseDrive-B
det mAP↑ 0.380 0.418 0.496
det NDS↑ 0.498 0.525 0.588
AMOTA↑ 0.359 0.386 0.501
IDS↓ 906 886 632
map mAP↑ 55.1 56.2
minADE↓ 0.71 0.62 0.60
minFDE↓ 1.02 0.99 0.96

效率对比(Table 3)

方法 训练显存 训练时间 FLOPs 参数量 FPS
UniAD 50.0G 144h 1709G 125.0M 1.8
SparseDrive-S 15.2G 20h 192G 85.9M 9.0
SparseDrive-B 17.6G 30h 787G 104.7M 7.3

消融实验:验证三个洞察

运动规划器设计消融(Table 4)

ID PAL EII MTM ATA CAR minADE↓ avg L2↓ avg Col↓
1 0.623 0.61 0.08
2 0.641 0.61 0.10
3 0.621 0.63 0.11
4 0.626 0.69 0.25
5 0.634 0.77 0.16

PAL=并行设计, EII=Ego 初始化, MTM=多模态规划, ATA=Agent-temporal attention, CAR=碰撞感知重评分。

关键发现

  1. 去掉多模态规划(ID-4)碰撞率暴增至 0.25%(3.1×)
  2. 去掉 agent-temporal attention(ID-5)L2 误差升至 0.77m(+26%)
  3. 碰撞感知重评分(ID-1 vs ID-6=无 CAR)将碰撞率从 0.12% 降至 0.08%

失效场景分析

  • 在线建图:单任务方法 MapTR 的 mAP(58.7)仍高于 SparseDrive-B(56.2),端到端优化未能充分释放建图性能
  • 开环评估局限:nuScenes 开环评估无法全面衡量安全性和交互能力
  • 数据规模:nuScenes 仅 1000 场景,不足以发挥端到端学习的全部潜力

工程实践

训练配置

Backbone:       ResNet-50 (S) / ResNet-101 (B)
Input: 256×704 (S) / 512×1408 (B), 6 cameras
Training:
Stage-1: 100 epochs (S) / 80 epochs (B), 感知模块, bs=8(S)/4(B)
Stage-2: 10 epochs, 全模块端到端, bs=6(S)/4(B)
Optimizer: AdamW, Cosine Annealing
GPUs: 8× RTX 4090 (24GB)
Detection: 900 anchors, 6 decoder layers (1 non-temporal + 5 temporal)
Online Map: 100 map anchors, 20 points/element
Motion Memory: 3 stored frames, instance-level temporal attention
Motion Modes: K=6 (prediction & planning)
Prediction: T_m=12 steps (6s)
Planning: T_p=6 steps (3s)
Feature Dim: 256
Flash Attention: 启用

复现要点

  1. 对称感知的关键是锚框初始化:检测和建图的锚框位置均由训练集 K-Means 聚类得到,直接影响收敛速度
  2. Ego 速度不能用 GT:直接用 GT 速度初始化 ego 锚框会导致 ego status 信息泄露,需通过辅助任务预测速度并用上一帧预测值初始化
  3. 碰撞检测用 BBox 重叠:不同于 UniAD 用 0.5m 占用图(会产生假碰撞),SparseDrive 用 ego BBox 和障碍物 BBox 的实际重叠判断碰撞,并考虑 ego heading 变化
  4. 跟踪无需额外损失:Sparse4Dv3 式 ID 分配——检测置信度超过 0.2 即锁定 ID,时序传播自然保持身份一致性
  5. Flash Attention 显存优化:在 self-attention 和 cross-attention 中使用 Flash Attention,显存从约 25G 降至 15.2G(SparseDrive-S)

性能优化方向

精度提升

  • 更大 backbone(R101,512×1408)从 S→B 提升检测 mAP +7.8,碰撞率降低 25%(0.08→0.06)
  • 更长时序记忆(当前仅 3 帧),可引入更长历史提升运动预测精度

速度优化

  • SparseDrive-S 已达 9.0 FPS(4090),进一步轻量化可考虑减少锚框数量或解码器层数
  • 去掉深度辅助损失可减少训练开销,但可能影响感知精度

研究启示

可迁移的思想

  • 稀疏表示替代 BEV:对于不需要稠密空间推理的任务,稀疏实例表示可大幅降低计算成本,适用于端到端机器人操控、无人机导航等资源受限场景
  • 并行预测+规划:将自车视为”又一个智能体”参与联合预测,通过共享 Transformer 天然建模双向交互
  • 碰撞感知重评分 > 后处理优化:基于预测结果的碰撞检测比基于占用图的后处理优化更安全、更高效
  • 对称模型设计:检测和建图用相同的解码器结构(仅锚框定义不同),简化了代码实现和调参

方法局限

  • 开环评估(nuScenes)不足以证明闭环安全性
  • 无 BEV 特征意味着缺少稠密空间信息,对 OccFormer 式的占用预测不友好
  • 碰撞重评分依赖运动预测精度——如果预测不准,碰撞检测也不可靠

技术影响

  • SparseDrive 证明了 BEV 特征不是端到端自动驾驶的必需品,稀疏表示在性能和效率上均可超越 BEV-Centric 方案
  • 并行预测+规划的范式被后续 DiffusionDrive 等方法采纳,成为新的设计趋势
  • 提出的碰撞率评估修正(考虑 ego heading + BBox 重叠)被社区采用为更公平的规划评估标准

SparseDrive 解决了端到端自动驾驶的表示效率问题——证明稀疏表示足以替代 BEV。但自动驾驶的核心挑战还有另一面:规划质量。当 DiffusionDrive 等生成式方法将多模态规划推向新高度时,SparseDriveV2 从评分范式出发,给出了一个出人意料的回答。

SparseDriveV2:Scoring is All You Need

Paper: SparseDriveV2

摘要

SparseDriveV2 重新审视了端到端自动驾驶中”静态候选轨迹 vs 生成式轨迹”的路线之争。通过 Scaling Study 发现,Hydra-MDP 的静态轨迹锚点从 1024 增至 16384 时,EPDMS 从 85.02 持续上涨至 87.35,直到 32768 才因显存溢出停止——性能并未饱和,先撞墙的是算力。这说明过去对静态词表的不满,核心原因不是”打分派范式不行”,而是词表覆盖率不够

基于这一判断,SparseDriveV2 提出两项核心创新:(1)分解式轨迹词表(Factorized Vocabulary):将轨迹拆分为几何路径 path 和速度轮廓 velocity profile 的自由组合,以 1024 × 256 = 262,144 条候选覆盖极密的轨迹空间;(2)粗到细的分解评分(Coarse-to-Fine Factorized Scoring):先分别对 path 和 velocity 粗打分淘汰,再对少量高质量组合精细打分,将实际评分量从 26 万压缩至 400 条。最终在 NAVSIM 上达到 92.0 PDMS90.1 EPDMS,以纯评分范式刷新端到端自动驾驶 SOTA。

核心论点:静态候选轨迹的瓶颈不在于范式,而在于覆盖率——通过路径×速度的分解式组合,词表可以指数级扩展而不爆显存;配合粗到细的层级评分,”Scoring is All You Need”足以匹敌乃至超越生成式方法。

问题与动机

SparseDriveV2 诞生于端到端自动驾驶的三条主线交汇之处:

路线 代表方法 核心思路 局限
Planning-Oriented 统一范式 UniAD, SparseDrive 全栈端到端,打通感知-预测-规划 规划为单模态/有限模态
多模态规划候选集之争 VADv2, Hydra-MDP, DiffusionDrive, GoalFlow 静态词表打分 / 扩散生成 / Flow Matching 静态词表太稀 or 生成模型复杂
VLA / 世界模型 DriveVLA-W0, Alpamayo-1, AutoVLA 语义理解 + 未来想象 + 动作规划一体化 实时性差,安全约束难满足

在第二条路线中,生成式方法(DiffusionDrive、DiffusionDriveV2、GoalFlow)日益强势,但伴随着额外的 proposal 生成、去噪过程、mode collapse 等复杂性。SparseDriveV2 反其道而行,回到评分范式,追问一个被大多数人放弃的问题:

核心痛点:静态候选轨迹真的不行了吗?还是只是没人把词表做得够密?

核心洞察

洞察 1:Scaling Study——静态词表的真正瓶颈是覆盖率

传统认知:静态轨迹锚点(如 Hydra-MDP 的 8192 条)天然不如生成式方法灵活,无法覆盖复杂场景的真实可行解。

SparseDriveV2 发现:在 Hydra-MDP 上做 Scaling 实验,锚点数从 1024 逐步增至 32768:

轨迹锚点数 EPDMS
1024 85.02
4096 86.58
8192 86.83
16384 87.35
32768 显存溢出

关键结论:性能在 16384 anchors 时仍未饱和,先撞墙的是显存——说明”打分派天然不如生成派”的结论下得太早,覆盖率不够才是根本原因。

洞察 2:分解式轨迹词表——路径 × 速度 = 组合爆炸

传统做法:将完整轨迹 $\tau = \{(x_t, y_t)\}_{t=1}^T$ 作为不可分的整体聚类成锚点。想覆盖”左转半径 × 并线角度 × 加减速节奏 × 刹停时机”等组合,词表指数级膨胀。

SparseDriveV2 做法:将轨迹分解为两个独立维度:

$$\tau = \text{Compose}(P, V)$$

其中几何路径 $P$ 描述”车往哪走”(空间形状),速度轮廓 $V$ 描述”以多快节奏走”(时间演化)。速度由相邻时刻位置差分得到:

$$v_t = \sqrt{(x_{t+1}-x_t)^2 + (y_{t+1}-y_t)^2} / \Delta t$$

累计路程 $s_t = \sum_{i=1}^{t} v_i \cdot \Delta t$ 定义了沿路径的行进距离,再通过插值即可将 path 和 velocity 重新组合为一条完整轨迹。

词表规模从一维枚举变为组合式扩展

$$|\text{Vocabulary}| = N_{\text{path}} \times N_{\text{velocity}}$$

最终设置 1024 path anchors × 256 velocity anchors = 262,144 候选轨迹,是此前常见 8192 anchors 的 32× 密度

为什么更好:同样的存储和聚类成本下,词表密度指数级提升。”路线模板”和”速度节奏”的自由配对,让词表不再需要穷举所有时空组合。

洞察 3:粗到细的分解评分——层级筛选压缩计算量

传统做法:给定场景特征,对每条候选轨迹逐一打分 $s_i = f(\tau_i, \mathbf{c})$。当词表涨到 26 万条时,逐条评分的计算量线性爆炸。

SparseDriveV2 做法:既然轨迹已被拆为 path 和 velocity,评分也可以分两阶段做:

  1. Coarse Factorized Scoring:分别给 path anchors 和 velocity anchors 独立粗打分,保留 top-128 paths 和 top-64 velocities
  2. Fine-Grained Trajectory Scoring:第二层进一步收缩至 20 paths × 20 velocities = 400 条 composed trajectories,再做精细打分

打分器不是单纯的 imitation learning,同时使用 path loss、velocity loss、trajectory-level soft classification loss,再叠加 rule-based metric supervision:

$$\mathcal{L}_{\text{V2}} = \mathcal{L}_{\text{path}} + \mathcal{L}_{\text{velocity}} + \mathcal{L}_{\text{traj-cls}} + \mathcal{L}_{\text{metric}}$$

为什么更好:从 262,144 → top-128×64 → 20×20 = 400,实际精细打分的轨迹数量压缩了 655×。层级筛选让超密词表不仅可行,而且高效。

要记住的 3 个数字

  • 262,144:分解式词表覆盖的候选轨迹总数(1024 path × 256 velocity),是传统 8192 anchors 的 32×
  • 400:最终进入精细打分的轨迹数量(20 paths × 20 velocities),仅占词表的 0.15%
  • 90.1 EPDMS:NAVSIM 新 SOTA,纯评分范式超越 DiffusionDrive(88.1)等生成式方法

方法设计

整体架构

$$\tau^* = \arg\max_{\tau \in \text{Top-}k(\mathcal{P}) \times \text{Top-}k(\mathcal{V})} \; f_{\text{fine}}(\text{Compose}(p, v), \mathbf{c})$$
多视图 6 cam
      │
      ▼
┌───────────────┐
│ Backbone+FPN  │  多尺度特征 I
└─────┬─────────┘
      │
      ▼
┌─────────────────────────────────────┐
│ SparseDrive V1 感知编码器             │
│ (稀疏检测 + 建图 + Ego 初始化)         │
│ → 场景特征 c                          │
└─────┬───────────────────────────────┘
      │
      ▼
┌─────────────────────────────────────────────────────┐
│ 分解式轨迹词表 (Factorized Vocabulary)                │
│                                                     │
│   Path Anchors (1024)    Velocity Anchors (256)     │
│   ┌─────────┐            ┌─────────┐                │
│   │ 几何路径 │      ×     │ 速度轮廓 │ = 262,144 候选  │
│   └─────────┘            └─────────┘                │
└─────┬───────────────────────────────────────────────┘
      │
      ▼
┌─────────────────────────────────────────────────────┐
│ 粗到细评分 (Coarse-to-Fine Scoring)                   │
│                                                     │
│ Layer 1: Coarse Factorized Scoring                  │
│   path: 1024 → top-128                              │
│   velocity: 256 → top-64                            │
│                                                     │
│ Layer 2: Fine Factorized Scoring                    │
│   path: 128 → top-20                                │
│   velocity: 64 → top-20                             │
│   compose: 20 × 20 = 400 trajectories               │
│                                                     │
│ Fine-Grained Scoring → τ*                           │
└─────────────────────────────────────────────────────┘

关键组件

模块 输入 输出 核心设计
分解式词表 训练集轨迹 1024 paths + 256 velocities path 和 velocity 分别 K-Means 聚类
Path-Scene Interaction path anchors + 场景特征 path 评分 可变形聚合(Deformable Aggregation)
Coarse Scoring path/velocity + 场景特征 top-128 paths, top-64 velocities 独立通道打分,淘汰低分候选
Trajectory Composition top-k paths × top-k velocities composed trajectories 沿 path 按 velocity 距离插值重组
Trajectory Re-conditioning composed 轨迹 + 场景特征 精调后轨迹 条件注入增强场景一致性
Fine-Grained Scoring 400 条 composed 轨迹 最终 $\tau^*$ 精细逐条打分,选最高分

实验与分析

方法 范式 PDMS↑ EPDMS↑
Hydra-MDP (8192) 静态词表打分 86.83
DiffusionDrive 截断扩散生成 88.1
GoalFlow Flow Matching
SparseDriveV2 分解式词表打分 92.0 90.1

消融实验

词表密度消融

Path × Velocity 候选总数 EPDMS
512 × 128 65,536 88.7
1024 × 256 262,144 90.1

词表从 512×128 提升至 1024×256,EPDMS 提升 +1.4,且未出现性能饱和,验证了更密词表持续有效的核心判断。

打分架构消融

组件 效果
Path-Scene Interaction → Deformable Aggregation 有效提升
+ Trajectory Re-conditioning 继续提升
最强配置 = 更密分解词表 + 更强 Coarse-to-Fine 打分 90.1 EPDMS

V1 → V2 演进对比

维度 SparseDrive V1 SparseDriveV2
核心问题 BEV 特征计算昂贵 静态词表覆盖不足
解法 稀疏实例替代 BEV 分解式词表 + 层级打分
轨迹表示 6 条多模态轨迹(回归) 262,144 条候选(path×velocity 组合)
规划范式 并行运动规划器 + 碰撞感知重评分 Coarse-to-Fine Factorized Scoring
评估基准 nuScenes 开环 NAVSIM
PDMS 92.0
关键洞察 BEV 不是必需品 Scoring is All You Need

研究启示(V2)

V2 可迁移的思想

  • 分解式表示:将高维搜索空间拆分为低维子空间的组合,适用于任何需要大规模候选集的决策问题(机器人抓取姿态、无人机路径规划等)
  • Coarse-to-Fine 层级筛选:在超大候选空间中,先粗筛再精选是平衡覆盖率与计算量的通用策略
  • Scaling Study 先行:在提出新方法前,先做 scaling 分析验证当前方法的真正瓶颈,避免”解决了一个不存在的问题”

V2 技术定位

SparseDriveV2 选择了一条与主流生成式方法相反的路线。DiffusionDrive/DiffusionDriveV2/GoalFlow 等方法通过动态生成 proposal 解决多模态规划;VLA 路线(DriveVLA-W0、Alpamayo-1、AutoVLA)则将语言推理和世界模型引入驾驶。SparseDriveV2 证明了:只要词表足够密、打分足够强,纯评分范式的性能天花板远高于此前的认知。两条路线并非对立,而是对端到端自动驾驶不同维度的探索。