当前位置：首页 > news >正文

51c自动驾驶~合集39

news 来源：原创 2025/9/1 11:54:54

我自己的原文哦~ https://blog.51cto.com/whaosoft/12707676

#DiffusionDrive

大幅超越所有SOTA！地平线DiffusionDrive：生成式方案或将重塑端到端格局？

近年来，由于感知模型的性能持续进步，端到端自动驾驶受到了来自工业界和学术界的广泛关注，端到端自动驾驶算法直接从原始传感器采集到的信息输入中学习驾驶策略。这种基于数据驱动的方法为传统的基于规则的运动规划提供了一种可扩展且强大的替代方案，而传统的基于规则的运动规划通常难以推广到复杂的现实世界驾驶环境。为了有效地从数据中学习驾驶过程，主流的端到端规划器通常从自车查询中回归出单模轨迹，如下图所示。

然而，这种回归单模轨迹的框架模式并没有考虑到驾驶行为中固有的不确定性和多模式的性质。最近，提出的端到端自动驾驶算法VADv2引入了大量固定的锚点轨迹vocabulary。然后，根据预测的评分从这些锚点中进行采样。然而，这种大型固定vocabulary范式从根本上受到锚点轨迹数量和质量的限制，在vocabulary不足的情况下经常会失败。此外，管理大量锚点对实时的自动驾驶应用来说带来了巨大的计算挑战。

与离散化动作空间不同，扩散模型已被证明是机器人领域一种强大的生成决策策略，它可以通过迭代去噪过程的方式直接从高斯分布中采样多模式物理上合理的动作。这激励我们将机器人领域的扩散模型的成功经验复制到端到端自动驾驶领域当中。

我们将原始机器人扩散策略应用于单模回归方法Transfuser。与普通扩散策略不同，人类驾驶员遵循既定的驾驶模式，并根据实时交通状况进行动态调整。这一认识促使我们将这些先前的驾驶模式嵌入到扩散策略中，具体方法是将高斯分布划分为以先前锚点为中心的多个子高斯分布，称为anchored Gaussian分布。它是通过截断diffusion schedule来实现的，从而在先前的锚点周围引入一小部分高斯噪声，如下图所示。

为了增强与条件场景上下文的交互，我们提出了一种基于Transformer的扩散解码器，它不仅与感知模块的结构化查询交互，还通过稀疏可变形注意机制与鸟瞰图和透视图特征交互。此外，我们引入了一种级联机制，在每个去噪步骤中迭代细化扩散解码器内的轨迹重建。

最终，我们提出了一种实时端到端自动驾驶的扩散模型，称之为DiffusionDrive。我们在NAVSIM数据集上对我们的方法进行闭环评估的基准测试。相关的实验结果表明，DiffusionDrive实现了88.1的PDMS，显著超过了之前的SOTA算法。此外，我们通过开环评估进一步验证了DiffusionDrive在nuScenes数据集上的性能，相关的实验结果表明提出的DiffusionDrive实现了SOTA的表现结果。

论文链接：https://arxiv.org/pdf/2411.15139

算法模型网络结构&技术细节梳理

调研工作

如前文所述，我们先从非常具有代表性的端到端规划算法Transfuser开始，通过简单地将回归MLP层替换为遵循扩散策略的条件扩散模型 UNet，将其转变为生成模型。在评估过程中，我们采样随机噪声并通过20个step逐步对其进行细化，相关的实验结果如下表所示。

为了进一步研究扩散策略在驾驶中的多模式特性，我们从高斯分布中采样了20个随机噪声，并使用20个step对其进行去噪。如下图所示。

不同的随机噪声在去噪后会收敛到相似的轨迹。为了定量分析模式坍塌现象，我们定义了一个模式多样性得分，根据每条去噪轨迹与所有去噪轨迹的并集之间的平均交并比计算得到：

相关的实验结果如下表所示。通过表格中的结果可以看出，mIoU 越高，表示去噪轨迹的多样性越低。通过可视化的结果可以看出类似的效果。此外，通过下表的实验结果还可以看出，DDIM扩散策略需要20个去噪step才能将随机噪声转换为可行轨迹，这会带来大量计算开销。这使得它对于实时在线驾驶应用来说不切实际。

截断扩散

人类的驾驶行为遵循着固定模式，不同于普通扩散策略中的随机噪声去噪。受此启发，我们提出了一种截断扩散策略，该策略从锚定高斯分布而不是从标准高斯分布开始进行去噪过程。为了使模型能够学习从锚定高斯分布到所需的驾驶策略进行去噪，我们在训练期间进一步截断扩散计划，只向锚点添加少量高斯噪声。

训练过程：我们首先通过向训练集上由K-Means 聚类的锚点添加高斯噪声来构建扩散过程。我们通过截断扩散噪声方案来将锚点扩散到锚定高斯分布，相关的计算公式如下。

在训练期间，扩散解码器将噪声轨迹作为输入，并预测分类分数和去噪轨迹，相关公式如下。

我们将最接近真实轨迹的锚点周围的噪声轨迹指定为正样本，其他轨迹指定为负样本。训练目标结合了轨迹重建和分类，计算公式如下所示。

推理过程：我们使用截断去噪过程，从锚定高斯分布中采样的噪声轨迹开始，并逐步对其进行去噪，直至完成最终预测。在每个去噪时间戳中，上一步估计的轨迹被传递给扩散解码器，该解码器预测分类分数和坐标。在获得当前时间戳的预测后，我们将 DDIM 更新规则应用于下一个时间戳的样本轨迹。

推理灵活性：我们提出的自动驾驶DiffusionDrive算法的一个关键优势在于其推理的灵活性。虽然模型是用轨迹进行训练的，但其推理过程可以容纳任意数量的轨迹样本，并可以根据计算资源或应用要求进行动态的调整。

DiffusionDrive算法整体框架图

如下图所示，展示了我们提出的算法模型DiffusionDrive的网络结构。

DiffusionDrive算法模型可以集成之前端到端规划器中使用的各种现有感知的模块，并接受不同的传感器信息作为输入。设计的扩散解码器专为复杂且具有挑战性的驾驶应用而量身定制，增强了与条件场景环境的交互。

Diffusion Decoder：给定一组从锚定高斯分布中采样的噪声轨迹，我们首先应用可变形空间交叉注意力来与基于轨迹坐标的鸟瞰图 (BEV) 或透视图 (PV) 特征进行交互。随后，在轨迹特征和从感知模块派生的代理/地图查询之间执行交叉注意力，然后接一个FFN网络。为了对扩散时间戳信息进行编码，我们使用Timestep Modulation Layer，然后是多层感知机网络，用于预测置信度得分和相对于初始噪声轨迹坐标的偏移量。该Timestep Modulation Layer的输出用作后续级联扩散解码器层的输入。DiffusionDrive 进一步重用级联扩散解码器在推理过程中迭代地对轨迹进行去噪，并在不同的去噪时间步长之间共享参数。选择置信度得分最高的最终轨迹作为输出。

实验结果&评价指标

整体性能比较

下表展现了将DiffusionDrive与NAVSIM数据集上最先进的算法模型进行比较的实验结果汇总。

使用相同的 ResNet-34主干网络，DiffusionDrive 获得了 88.1 PDMS 分数，与之前基于学习的方法相比，其性能有显著的提高。与 VADv2自动驾驶算法相比， DiffusionDrive 超越了它 7.2 PDMS，同时将锚点数量从 8192 个减少到 20 个，减少了 400 倍。DiffusionDrive 还优于遵循 VADv2 的vocabulary采样范式的 HydraMDP算法模型，PDMS相比于提高了 5.1。即使与性能更强的算法模型相比，DiffusionDrive 仍然比它高出 3.5 个 EP 和 1.6 个整体 PDMS，完全依赖于直接向人类学习的方法，没有任何的后处理操作步骤。与 Transfuser算法模型的基线相比，我们仅在规划模块上有所不同，DiffusionDrive 实现了显着的 4.1 PDMS 改进，在所有子分数中均优于它。

此外，如下表所示，使用扩散策略将Transfuser算法模型转换为生成式，可将PDMS 得分提高 0.6，并提高模式多样性得分11%。然而，它也显著增加了规划模块的开销，需要 20 倍以上的去噪step和 32 倍的时间，导致运行时开销总共增加了 650 倍。

通过采用所提出的截断扩散策略，将去噪step的数量从 20 减少到 2，同时实现了 PDMS 增加 1.1，模式多样性提高 59%。通过进一步结合所提出的扩散解码器，最终 DiffusionDrive 模型达到了 88.1 PDMS 和 74% 的模式多样性得分。相比于，DiffusionDrive实现了3.5 PDMS 和 64% 模式多样性的改进，以及去噪step减少了10倍，从而使 FPS 速度提高了 6 倍。这可以实现实时、高质量的多模式规划。

消融实验分析

下表显示了我们在扩散解码器中的设计选择的有效性。通过比较 ID-6 和 ID-1，我们可以看到所提出的扩散解码器减少了 39% 的参数，并将规划质量显著提高了 2.4 PDMS。由于缺乏与环境的丰富和层次化交互，ID-2 表现出严重的性能下降。通过比较 ID-2 和 ID-3，我们可以看到空间交叉注意对于准确规划至关重要。ID-5 表明所提出的级联机制是有效的，并且可以进一步提高性能。

下表的实验结果表明，由于起始点的选择比较合理，DiffusionDrive仅需1步即可达到良好的规划质量。进一步增加去噪步长可以提高规划质量，并使其在复杂的环境下具有灵活的推理能力。

通过下表的实验结果可以看出，消除了级联阶段数的影响。增加阶段数可以提高规划质量，但在 4 个阶段就会饱和，并且每一步都会花费更多的参数和推理时间。

由于在上文中已经有所提到，DiffusionDrive 只需从锚定高斯分布中采样可变数量的噪声即可生成不同的轨迹。下表的相关实验结果可以看出，10 个采样噪声已经可以实现不错的规划质量。通过采样更多噪声，DiffusionDrive 可以覆盖潜在的规划动作空间并提高规划质量。

由于 PDMS 规划指标基于得分最高的轨迹进行计算，而我们提出的分数评估模式多样性，因此仅凭这些指标无法完全捕捉多样化轨迹的质量。为了进一步验证多模式轨迹的质量，我们在 NAVSIM数据集上的具有挑战性的场景中可视化了 Transfuser、和 DiffusionDrive 的规划结果，如下图所示。

通过可视化的结果可以看出，DiffusionDrive 生成的多模式轨迹不仅多样性，而且质量较高。在上图的a图展示的结果可以看出，DiffusionDrive 算法模型生成的得分最高的前 10 条轨迹与真实轨迹非常相似，而突出显示的前 10 条得分轨迹出人意料地试图执行高质量的车道变换。上图的b图展示的结果可以看出，突出显示的前 10 条得分轨迹也执行车道变换，相邻的低得分轨迹进一步与周围的代理交互以有效避免了碰撞的发生。

nuScenes 数据集是之前流行的端到端规划基准。由于 nuScenes 的主要场景都是简单而琐碎的情况，因此我们仅进行相关结果的比较，如下表所示。

我们根据 SparseDrive 的训练和推理方案，使用 ST-P3中提出的开环指标，在 SparseDrive之上实现了 DiffusionDrive算法模型。我们堆叠了 2 个级联扩散解码器层，并应用了具有 18 个聚类锚点的截断扩散策略。通过上表的实验结果可以看出，DiffusionDrive 将 SparseDrive 的平均 L2 误差降低了 0.04m，与之前最先进的方法相比，实现了最低的 L2 误差和平均碰撞率。同时 DiffusionDrive 算法模型也非常高效，运行速度比 VAD 快 1.8 倍，L2 误差降低了 20.8%，碰撞率降低了 63.6%。

结论

在本文中，我们提出了一种新颖的生成式驾驶决策模型 DiffusionDrive，该模型结合了所提出的截断扩散策略和高效的级联扩散解码器，用于端到端自动驾驶。全面的实验和定性比较验证了 DiffusionDrive 在规划质量、运行效率和模式多样性方面的优越性。

#机器人甚至可以在火锅店中无痛部署！

Data Scaling Law

想象一下，你正在火锅店涮肉，一位“人美声靓”的服务员悄然从你身边走过，不仅及时地为你把菜送到身边，还帮你把菜端到桌子上并摆放整齐。正在酣畅淋漓涮肉的你正想夸一下这家店的服务真不错，猛一抬头发现，居然是个机器人！

咨询了店长才知道，这是昨天刚到的一批“服务员”。内心更加震惊：居然这么快就上岗工作了！都不用培训？即插即用？！

这大概就是Scaling law的魔力了吧。

现如今大模型已发展得如火如荼，然而为什么还没有实现真正的落地？也就是说，为了让AI渗透到生活的每个角落，实现边缘化部署，还需要做什么？有一点亟需研究清楚，即模型性如何能随数据集、模型大小和训练计算量的增加而提升？这就是Data Scaling Law，也可称为数据缩放定律。如何在保留数据集关键信息的同时，尽可能减少数据量，而不牺牲模型的性能？如何在不增加计算资源的情况下，尽量降低模型的错误率？

早在2020年，OpenAI就提出了对Neural Language Models的Scaling law（Kaplan et al.，https://arxiv.org/pdf/2001.08361），说明了模型性能随着模型参数量、数据量和用于训练的计算量的指数级增加而平稳提高。对于计算量（C），模型参数量（P）和数据大小（D），当不受其他两个因素制约时，模型性能与每个因素都呈现幂律关系。2022年DeepMind团队(Hoffmann et al., https://arxiv.org/pdf/2203.15556)发现不应该将大模型训练至最低的可能loss来获得计算最优，模型规模和训练tokens的数量应按相同比例扩展。2023年Hugging Face团队（Colin Raffel et al., https://arxiv.org/pdf/2305.16264)发现在量化在数据受限的情况下，通过增加训练epoch和增加模型参数可以以次优计算利用率为代价提取更多的信息。

通过适当的数据缩放，单任务策略可以很好地泛化到任何新环境以及同一类别中的任何新对象。值得注意的是，机器人甚至可以在火锅店中进行零样本部署！

，时长00:38

视频来源：https://data-scaling-laws.github.io/

文章表明，当前机器人策略缺乏零样本泛化能力，文章旨在研究机器人操作中数据缩放规律，为构建大规模机器人数据集提供指导。文章探讨了机器人操作模仿学习中的数据缩放规律，通过实验揭示了策略泛化性能与训练环境、对象及演示数量的关系，提出了高效的数据收集策略。

DATA SCALING LAWS IN IMITATION LEARNING FOR ROBOTIC MANIPULATION
https://data-scaling-laws.github.io/https://data-scaling-laws.github.io/paper.pdf

论文通过 Pour Water（倒水）和 Mouse Arrangement（鼠标放置）两项任务进行大量实验以得出数据缩放规律，并在 Fold Towels（叠毛巾）和 Unplug Charger（拔充电器）等其他任务上进一步验证这些发现。文章的发现如下：

简单幂律：策略对新对象、新环境或两者的泛化能力分别大致与训练对象、训练环境或训练环境 - 对象对的数量呈幂律关系。
多样性就是关键：增加环境和对象的多样性远比增加每个环境或对象的演示绝对数量更有效。
泛化比预期更容易：在尽可能多的环境（例如 32 个环境）中收集数据，每个环境有一个独特的操作对象和 50 次演示，就能够训练出一个对任何新环境和新对象都能很好泛化（90% 成功率）的策略。

#生成模型 | 去噪扩散模型 DDPM 半小时理论扫盲

本文希望先跳过很多不熟悉的名词和定理，找出我认为适合初学者理解的部分，下一篇文章 [生成模型 2] 整流流 Rectified Flow 理论简介

有个完整理解后，再看 ewrfcas：由浅入深了解Diffusion Model 就不会觉得害怕

本文大量参考了网上文献和使用跃问辅助，如有纰漏求指正

主要参考的是苏神的生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼和生成扩散模型漫谈（二）：DDPM = 自回归式VAE，DDPM 论文

假设读者记得一些概率论的基本知识，如果忘了可以移步 Deja vu：一文带你看懂DDPM和DDIM（含原理简易推导，pytorch代码）看前置知识

核心价值以能量模型为抓手，将得分匹配下沉到朗之万方程的动态轨迹，打通马尔可夫链底层逻辑，发力变分推断引爆点，形成去噪过程递归闭环，拉通前向-反向全链路，卡位生成模型赛道，造势图像生成风口，布局多模态蓝海，沉淀噪声调度护城河，赋能潜在空间表征，倒逼模型优化，输出高质量样本反馈，升华生成建模格局，重塑数据生成认知矩阵，击穿传统生成模型研究员心智，打出一套组合拳。

生成扩散模型介绍

从 2019 BigGAN 可以生成 ImageNet 某一类别的 128p 图片，2022-2023 的 DALLE-2/3 又是新的里程碑

用卷积神经网络做图像任务，模型性能随着模型参数 / 训练数据量增加，其实经常是边际收益递减的

我理解 transformer 流行的一个原因是在模型放大时能有不错的边际收益，而生成扩散模型则找到了一种可以在推理时使用非常大算力来提升效果的范式，这两者实现它们和卷积神经网络的差异化

分步扩散和生成

我们的目标是一个生成模型，它从随机噪声 z 变成数据样本 x

如果我们能把中间扩散的每一步的逆过程生成建模出来，得到一个生成函数:=()(2)

然后从随机噪声 z 开始，生成 T 步就得到了 x

CV+DL 白话：训练的时候，随机采样数据 x 和步数 t，学到的变换模型，推理的时候，从一个随机高斯噪声递归调用 T 步学出来的模型得到生成结果

具体来说，DDPM 的扩散过程是

其一般形式来自 Variational Diffusion ModelsVariational Diffusion Models

之后推导中可以把系数看作是我们选的常数项

这里可以看到可训练参数是噪声项的下标，表示我们实际上是在预测第 t 步添加到数据样本中的噪声（实现上就是一个输入 xt 和 t 的神经网络）

代入损失函数有

推导中把 xt 变成了 x0 的加噪形式 (4)

小结：到这里我们已经了解很多了，我们知道了一个单步的具体优化过程，其中只有一个关键步骤是高斯噪声叠加过程的理解
接下来这个小节是为了把两个通过一些技巧变成一个，使得我们采样时方差变小，优化更简单

损失函数优化（可以跳过）

参数选取

在实践中，DDPM 设置生成步数 T=1000，后续有很多工作讨论加速和优化

另一方面据苏神解释，在图像上用欧式距离时，当两张图片非常接近时才好度量，所以不管是选取大的 T，还是单调递减的，都是希望在靠近图片一侧的扩散过程的每一步都走的不太远，而在靠近噪声一侧走得远一点也无妨

我感觉就算选取了更好的度量，我们仍然会希望把更多的推理开销花在靠近图片的一侧而不是最初叠加噪声的过程

小结：以上其实就是完整推导，后面是从 VAE 的角度再解释一遍，大部分推导技巧是一致的

VAE 角度理解

稍微介绍几句 VAE，做过一段神经网络的朋友应该都知道编解码结构，z = g(x), x' = f(z)

用一张图 x 和 f(g(x)) 计算欧式距离就可以训练这样一对网络

如果我们抛弃掉 g，随便采样一个 z，解码 f(z) 出来会发现基本上是噪声

这是因为 z 的先验分布 q(z) 没有建模，f 对随机的 z 是不鲁棒的

VAE 会将条件分布 p(z|x)（编码）和 q(x|z)（解码）以及 q(z) 建模为高斯分布

但是这种一步到位的做法并不能提供足够强的表达能力

做生成模型的目标是希望生成模型的联合分布 q 尽可能接近真实数据的联合分布 p，可以通过最小化 KL 散度实现

联系到 DDPM

在 DDPM 中，模型每一步的编码过程 p (3)，是不含可训练参数的，所以标红的 p 是常数项

所以 (16) 就是

对比一下就是把 log 下面的分母变出前面负号，然后写成求和形式

这里的先验分布q()一般取标准高斯分布，所以取 log 是常数项

看求和中的第 t 步

(18)

其实就是 (8) 多了权重和常数项，往后推的结果和 (11) 也只是有权重系数区别

这个系列为了督促自己补齐相关知识，希望能持续写一段时间

#VisionPAD

3DGS自监督预训练全新范式！三大感知任务全部暴力涨点（港中文&华为）

虽然近一年端到端的自动驾驶发展火热，但是以多视角图像推导BEV视角和占用空间的感知技术引领的自动驾驶框架，仍然在很多企业中占据主体。比如今天要分享的这篇，就是华为诺亚方舟实验室对BEV+OCC的继续研究。但是不得不说，这些模型在很大程度上依赖于精确的3D标注，而数据标注的高成本使得越来越多的研究人员和工程师开始关注预训练策略。

论文链接：https://arxiv.org/pdf/2411.14716

传统意义上的预训练是监督预训练，用于3D目标检测和占用预测等任务，当然这种方式仍然伴随着标注成本过高的问题。再者，有其他方法使用 对比学习 和 掩码自编码器（MAE） 进行自监督预训练。然而，它们依赖于粗监督，这使得同时有效地捕获语义、3D几何和时间动态变得具有挑战性。UniPAD通过重建体素特征的多视图深度图和图像引入了一种预训练范式（见图1(a)）。这种方法使用可微分的体积渲染来构建完整的几何表示。在此基础上，ViDAR结合了下一个帧预测和变换器，并渲染出由未来LiDAR帧监督的相应深度图。然而，这两种技术仍然严重依赖于来自LiDAR数据的显式深度监督来学习3D几何。仅依赖于图像监督的结果不令人满意，这限制了它们在基于摄像头的自动驾驶系统中的应用。

在本文中，作者提出了VisionPAD，这是一个针对视觉中心数据的自监督预训练框架（见图1(b)）。与之前使用体积渲染进行图像重建的方法不同，作者利用了更高效的基于锚点的3D Gaussian Splatting（3D-GS）。这篇文章的贡献可以总结为一下几点：

能够在相同的计算预算下重建更高分辨率的图像，捕捉更细粒度的颜色细节，而无需射线采样。
为了仅从图像中学习运动线索，作者提出了一种自监督的体素速度估计方法。作者使用辅助头预测每个体素的速度，并使用时间戳近似体素流向相邻帧。随后，作者将当前帧的体素扭曲到相邻帧，并使用相应的图像监督3D-GS重建。这种速度预测使模型能够分离动态和静态体素，有助于下游任务中的运动感知。
作者采用了多帧光度一致性损失进行3D几何预训练，这是一种自监督深度估计技术，其中算法根据渲染的深度和相对姿态将相邻帧投影到当前帧。

#2024年自动驾驶热门方向综述汇总

1、端到端自动驾驶

【CARLA中的端到端自动驾驶全面综述】讨论了基于CARLA的最先进实现如何通过各种模型输入、输出、架构和训练范式解决端到端自动驾驶中遇到的各种问题。对这些方法进行了简明总结。最后，对这些方法进行了评估与讨论，并提出了未来应对端到端模型当前挑战的方向。
题目：End-to-End Autonomous Driving in CARLA : A Survey

非机构化道路上的自动驾驶：我们走了多远？

【非机构化道路上的自动驾驶：我们走了多远？】通过250多篇关于非结构化室外环境自动驾驶的论文，涵盖了离线地图构建、位姿估计、环境感知、路径规划、端到端自动驾驶、数据集及相关挑战。
题目：Autonomous Driving in Unstructured Environments: How Far Have We Come?

2、occupancy感知

信息融合视角下的自动驾驶占用感知综述#3D占用感知技术旨在观察和了解自动驾驶车辆的密集3D环境。由于其全面的感知能力，该技术正成为自动驾驶感知系统的一种趋势，并引起了业界和学术界的极大关注。与传统的鸟瞰图（BEV）感知类似，3D占用感知具有多源输入和信息融合的必要性。然而，不同的是，它能够捕捉到被2D BEV忽略的垂直结构。在这项调查中，我们回顾了关于3D占用感知的最新工作，并对各种输入模式的方法进行了深入分析。具体来说，我们总结了通用的网络流程，突出了信息融合技术，并讨论了有效的网络训练。我们在最受欢迎的数据集上评估并分析了最先进的占用感知性能。此外，还讨论了挑战和未来的研究方向。我们希望本文能激发社区的热情，并鼓励开展更多关于3D占用感知的研究工作。
论文：A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective

【基于视觉的自动驾驶3D Occupancy预测研究综述与展望】从三个方面对基于视觉的3D占据预测的进展进行了全面调查：特征增强、部署友好性和标签效率，并对各类方法的潜力和挑战进行了深入分析。
题目：Vision-based 3D occupancy prediction in autonomous driving: a review and outlook

基于视觉的自动驾驶3D占用预测研究综述与展望仓库：https://github.com/zya3d/Awesome-3D-Occupancy-Prediction

3、目标检测&分割&跟踪

【2024年10月首篇最新！开放世界目标检测全面综述】涵盖了问题定义、基准数据集、源代码、评估指标以及现有方法的对比研究等重要方面。这是首篇对新兴OWOD领域进行全面综述的论文，引用了超过一百篇参考文献，标志着目标检测技术的重要进展。
题目：Open World Object Detection: A Survey

【2024年9月最新！自动驾驶3D目标检测中的深度学习前沿】本综述探讨了3D目标检测在提高自动驾驶汽车安全性和效率方面的关键作用，强调了其在自动驾驶系统中的重要性。这篇综合性综述旨在为研究人员和从业者提供有价值的见解，指导开发可靠的3D目标检测系统，这对于自动驾驶技术的安全部署至关重要。
题目：Deep Learning Frontiers in 3D Object Detection: A Comprehensive Review for Autonomous Driving

【2024年9月最新自动驾驶中的3D目标检测综述！】总结了传统的3D目标检测方法，重点介绍了基于相机、基于LiDAR以及融合检测技术。对每种方法的优缺点进行了全面分析，强调了在精度和稳健性方面的进展。
题目：A Review of Developments in 3D Object Detection for Autonomous Driving

【2024.8月最新！自动驾驶中3D目标检测的综述：技术进步和未来方向】全面总结了传统的3D目标检测方法，重点关注基于摄像头、基于激光雷达以及融合检测技术。对每种方法的优缺点进行了综合分析，突出展示了在准确性和鲁棒性方面的进展。
题目：A Comprehensive Review of 3D Object Detection in Autonomous Driving: Technological Advances and Future Directions

【自动驾驶的语义分割综述仓库分享】包括：FCN-like Network、Transformer-based Networks、Two-branch Network、Multi Branch Networks。\

仓库链接：https://github.com/mohamedac29/Real-time-Semantic-Segmentation-Survey

YOLOv10的起源: 《You Only Look Once》系列的十年！
YOLOv10 to Its Genesis: A Decadal and Comprehensive Review of The You Only Look Once Series

【2024最新综述！自动驾驶中的单目3D 车道线检测: 最新成就、挑战与展望】本综述定义、分析和审查了3D车道检测研究领域的当前成就，涵盖了3D车道检测流程，调查了最先进算法的性能，分析了尖端建模选择的时间复杂性，并突出了当前研究努力的主要成就和局限性。
题目：Monocular 3D lane detection for Autonomous Driving: Recent Achievements, Challenges, and Outlooks

【2024年7月最新——自动驾驶3D目标检测最新进展综述】全面调查了自动驾驶汽车最先进的3D目标检测技术，强调了多传感器融合技术和先进深度学习模型的重要性。此外还提出了未来研究的关键领域，包括增强传感器融合算法、提高计算效率以及解决伦理、安全和隐私问题。
题目：Recent Advances in 3D Object Detection for Self-Driving Vehicles: A Survey

【3D点云分类和语义分割的深度学习技术综述】分析了最近在点云处理中应用的深度学习方法的进展，并提出了推进该领域的挑战和潜在方向。重点介绍了3D点云处理中的两个主要任务——即3D形状分类和语义分割。
题目：A comprehensive overview of deep learning techniques for 3D point cloud classification and semantic segmentation

【300多种分割方法一网打尽！基础模型时代的图像分割综述】重点关注以基础模型驱动的图像分割研究。还提供了来自CLIP、Stable Diffusion和DINO等基础模型的分割知识的见解。提供了对300多种分割方法的详尽概述，以概括当前研究工作的广度。
题目：Image Segmentation in Foundation Model Era: A Survey

【自动驾驶中的鱼眼感知】探讨了如何在最大限度地减少鱼眼摄像头缺点的同时，充分利用其优点！
题目：An Overview of Multi-View Fisheye for Vision-First Autonomous Driving

【通过深度迁移学习来推进3D点云理解：一项全面调查】全面概述了使用DTL和域适应（DA）理解3DPC的最新技术。各种应用，如3DPC目标检测、语义标注、分割、分类、配准、降采样/升采样和去噪。
题目：Advancing 3D Point Cloud Understanding through Deep Transfer Learning: A Comprehensive Survey

【半监督目标检测：从CNN到Transformer】深入探讨了半监督学习的核心组件及其在目标检测框架中的整合，涵盖数据增强技术、伪标签策略、一致性正则化和对抗训练方法。
题目：Semi-Supervised Object Detection: A Survey on Progress from CNN to Transformer

【自动驾驶全景感知研究综述】本综述回顾了典型的全景感知模型，分析它们的独特输入和架构，并将其与性能、响应速度和资源利用情况进行比较。
题目：Panoptic Perception for Autonomous Driving: A Survey

深度学习在自动驾驶道路分析中的进展综述

https://t.zsxq.com/ujefS

很棒的多模态目标跟踪综述

https://t.zsxq.com/nnkOB

不同级别自动驾驶的分层感知增强：最新综述

https://t.zsxq.com/195WALh3T

计算机视觉与仿真中的环绕视鱼眼光学：综述与挑战

https://t.zsxq.com/LWg8F

2024最新！自动驾驶中鲁棒的3D目标检测综述

https://t.zsxq.com/Xd5wZ

2024最新！基于多模态融合的3D目标检测：自动驾驶中的新趋势

https://t.zsxq.com/6sBSJ

ADAS中的目标检测、识别和跟踪算法——近期趋势研究综述

https://t.zsxq.com/dXypK

自动泊车系统技术综述

https://t.zsxq.com/114Cg

4、大模型

【硬件加速大型语言模型的Transformer网络全面综述！】该综述介绍了已提出的框架，然后在技术、处理平台（FPGA、ASIC、内存中、GPU）、加速比、能效、性能（GOPs）和能效（GOPs/W）等方面进行定性和定量比较。
题目：Hardware Acceleration of LLMs: A comprehensive survey and comparison

【基础模型时代的SAM在视频中的应用系统综述】作为首个对SAM在视频领域进展进行综述的工作。重点讨论其在各种任务中的应用，探讨了最近的进展以及在广泛应用中开发基础模型的创新机会。
题目：Segment Anything for Videos

【视觉-语言多模态大模型的全面概述】118页的综述，是我目前看过最全最完整的综述，系统梳理了大模型的整个发展历史和子领域需要重点关注的未来方向！对于刚入门的同学系统性的了解视觉大语言模型很有帮助。本书是一本权威的资源，既提供了理论框架，也提供了实践见解，为研究人员、从业者以及对自然语言处理与计算机视觉交叉领域感兴趣的学生提供了宝贵的参考。
题目：A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks

自动驾驶中的大模型！全面概述了XLMs在实现自动驾驶方面的潜力

https://t.zsxq.com/KdFGu

从有效多模态模型到世界模型

https://t.zsxq.com/NkhMA

Segment Anything Model 综述

https://t.zsxq.com/Y3JuE

自动驾驶的视觉基础模型最新综述

https://t.zsxq.com/764e6

5、扩散模型

【扩散模型及其应用全面综述】本综述提供了对扩散模型的全面概述，包括其理论基础和算法创新。突出了其在媒体质量、真实性、合成、图像变换、医疗保健等多个领域的应用。
题目：A Comprehensive Survey on Diffusion Models and Their Applications

【首个围绕低层次视觉任务中去噪扩散模型技术全面综述】介绍了三种通用的扩散模型框架，并探讨了它们与其他常用深度生成模型的关联，从而为后续分析奠定理论基础。此次全面审查旨在促进对低层次视觉任务中去噪扩散模型研究现状的深刻理解。
题目：Diffusion Models in Low-Level Vision: A Survey

扩散模型在3D视觉中的算法及应用全面综述

https://t.zsxq.com/GgYqH

扩散模型如何在智能交通（自动驾驶、交通仿真、轨迹预测等）领域发挥作用？

https://t.zsxq.com/0jwWY

6、多模态

【200+文献！多模态对齐和融合最新综述】全面回顾了近年来机器学习中多模态对齐与融合的最新进展，这些进展得益于文本、图像、音频和视频等数据类型的日益多样化。
题目：Multimodal Alignment and Fusion: A Survey

【低质量数据的多模态融合：最新综述】从数据中心的角度看，确定了多模态融合在低质量数据上面临的四个主要挑战。这个新的分类法将使研究人员能够了解该领域的现状，并确定几个潜在的方向。
题目：Multimodal Fusion on Low-quality Data: A Comprehensive Survey

7、强化学习

【机器人中的强化学习最新综述！】对用于机器人的DRL进行了现代综述，特别着重评估了DRL在实现若干关键机器人能力方面的现实成功。
题目：Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes

8、Mamba

【Mamba才是计算机视觉的未来？24年10月最新综述一探究竟】本综述分析了 Mamba 模型的独特贡献、计算优势和应用，同时也指出了挑战和未来潜在的研究方向。
题目：Mamba in Vision: A Comprehensive Survey of Techniques and Applications

【A Survey on Vision Mamba】首篇Mamba在视觉中的应用全面综述。
题目：A Survey on Vision Mamba: Models, Applications and Challenges

【最近与Mamba相关的研究深入调查】全面回顾了相关研究，重点介绍了Mamba模型的架构设计、数据适应性和应用。最后，我们讨论了当前的局限性，并探索了各种有前途的研究方向，以为未来的研究提供更深入的见解
题目：A Survey of Mamba

#HYPERmotion

学习自适应行为规划用于自主运动操作

论文标题：HYPERmotion: Learning Hybrid Behavior Planning for Autonomous Loco-manipulation

论文链接：https://arxiv.org/pdf/2406.14655

项目链接：https://hy-motion.github.io/

作者单位：意大利科技研究院热那亚大学

使机器人能够在多样的环境中自主执行混合动作，对于长时间跨度的任务（如物料搬运、家务劳动和工作辅助）具有重要意义。这需要充分利用机器人的内在运动能力，从丰富的环境信息中提取可用性，并规划物理交互行为。尽管近期的进展展示了令人印象深刻的人形机器人全身控制能力，但它们在新任务的多样性和适应性方面仍存在挑战。本研究中提出了 HYPERmotion，一个基于不同场景中任务的学习、选择和行为规划框架。我们将强化学习与全身优化结合，生成38个驱动关节的运动，并创建一个运动库来存储已学习的技能。本文将大型语言模型（LLMs）的规划和推理能力应用于复杂的运动操作任务，构建一个层级任务图，其中包含一系列原始行为，旨在桥接低层执行和高层规划。通过利用提炼的空间几何信息和二维观测与视觉语言模型（VLM）之间的交互，将知识与机器人形态选择器结合，以选择单臂或双臂、步态或轮式运动中的合适动作。在仿真和实际环境中的实验表明，学习到的运动能够高效地适应新任务，并且能够在无结构场景中从自由文本命令中展现出较高的自主性。

HYPERmotion方法设计

具备行为自主性的类人机器人一直被视为我们日常生活中的理想合作伙伴，并且有力代表。与固定基座的机器人臂相比，由于类人机器人在结构上的特点，它们提供了更大的操作空间，但同时也大大增加了控制和规划的难度。尽管向通用类人机器人发展的进展迅速，大多数研究仍集中在运动学任务上，较少有研究探讨类人机器人的全身协调学习，这导致了简单的控制设计，难以适应新任务和新环境，从而限制了它们在开放式指令下执行长时间跨度任务的潜力。一个主要的挑战是如何探索类人机器人的可执行性，丰富其行为表现，同时学习推断可用性和空间几何约束，从而像人类一样利用已学技能为各种任务进行规划。

近年来，机器人学习领域的蓬勃发展使其成为操控和运动任务中的一个有前景的方向。基于学习的方法，如强化学习（RL），已经成为任务导向的动作生成的有效工具，同时也有助于在多样化场景中的泛化。然而，将学习算法扩展到类人机器人仍然是一个挑战，原因在于自由度（DoF）的大幅增加导致训练成本呈指数增长，并且在动态约束下将这些算法部署到真实机器人上非常困难。与此同时，大型语言模型（LLMs）的兴起及其在机器人规划中的卓越能力使得执行逻辑推理和构建复杂任务的层次化动作序列成为可能。通过整合来自不同模态的观测数据，这些模型可以用于提取物体和环境的特征，以支持机器人感知和决策。然而，LLM在类人机器人中的应用仍然存在一些局限性，特别是在复杂的全身运动控制和身体各部位之间的精确协调方面。

为了解决这些问题，本文首先认识到，直接通过仿真训练输出现实世界多关节系统的全身轨迹是低效且不切实际的。因此，本文采用了一种分解式训练策略，根据给定任务模块化地选择相关的驱动组件，并通过统一的运动生成器将低维空间轨迹投影到全身空间中。训练后的动作作为技能单元存储在运动库中。本文利用大型语言模型（LLM）分解由多个子任务组成的复杂语义指令的能力，并设计了一个模块化的用户界面作为模型输入。LLM从运动库中选择技能并安排一系列动作，这些动作被称为任务图。此外，从捕获的二维图像和深度数据中提取的三维特征可以与视觉语言模型（VLM）和机器人内在特性结合，充当机器人运动形态选择器。

本文将这项研究称为 HYPERmotion，这是一个利用语言模型解决类人机器人自主运动操作行为规划的框架。通过利用提炼的空间几何信息与二维观测数据与视觉语言模型（VLM）之间的交互，它将知识与机器人可用性结合，引导形态选择，并桥接语义空间、机器人感知与动作之间的鸿沟。本文展示了一种基于学习的全身控制方法，生成适应新任务的类人运动，并使用原始技能执行长时间跨度的任务。通过实验，本文进一步说明了 HYPERmotion 如何在高自由度、混合轮式-步态机器人上进行学习和部署，并在人工指令下进行zero-shot在线规划。

图1：HYPERmotion使类人机器人能够学习、规划和选择行为，以完成长时间跨度的任务。步骤1-5展示了机器人如何在基础模型的指导下，解读口头指令后自主执行运动和操作，并独立选择适用于不同场景的运动模式。

图2：HYPERmotion框架概述。本文将该框架分为四个模块：运动生成用于学习和训练全身运动技能，以应对新任务，并将其存储在运动库中；用户输入包括接收到的任务指令和初始化提示集；任务规划通过LLM的推理和规划功能生成任务图，引导机器人行为，并将动作指令传递给真实机器人；形态选择器用于特定子任务中的动作确定，根据基于空间知识和机器人内在特征的知识，选择适合运动和操作的形态。

图3：全身任务学习示意图，包括训练、仿真和现实环境中的设置。

图4：机器人形态选择器在接收到语言条件任务状态后，从物理环境中提取空间几何数据和二维观测信息，并与结合了机器人可用性的视觉语言模型（VLM）进行交互，从而提供满足特定任务场景要求的最优运动形态，用于操作和运动过程。

图5：在不同环境中执行不同任务时末端执行器位置轨迹。

实验验证：

图6：形态选择器在不同场景下的成功率。“2D”和“SD”分别表示图像和空间数据输入。

图7：长时间跨度任务的整体视图。上方图像展示了机器人运动轨迹的时间推移。A. 使用AprilTag的语义导航。B. 物体检测和姿态估计。C. 操作形态选择。D. 运动形态选择。下方的行为树展示了LLM任务规划的详细信息。

图8：类人机器人成功执行各种LLM规划任务的平均成功率，以及任务过程中由于不同类型错误导致的失败情况。

总结：

本文提出了HYPERmotion，一个使类人机器人能够学习、选择和规划行为的框架，融合知识和机器人可用性来执行具身任务。通过实际环境中的实验和长时间跨度的任务，本文评估了该框架的效率和多样性。尽管取得了预期的结果，但仍存在一些局限性：运动库的规模限制了任务指令的范围，而新技能的学习需要单独的训练优化，阻碍了从现有动作的泛化。此外，系统在处理外部干扰和碰撞时存在困难，任务执行过程中缺乏实时语言交互，且在面对突发任务时缺乏重新规划的能力。未来的工作将集中于丰富机器人的动作技能，增强LLM的动态规划能力，并改善机器人导航和感知，以实现闭环类人运动和安全的人机协作。

#吉利系智驾或再将整合

据知情人士透露，Smart汽车与极斯的智驾团队正在接触，未来双方在智驾上或许有合作的可能性。

Smart汽车与极斯同时作为吉利旗下的整车品牌，随着吉利最近大规模整合旗下各个整车品牌，Smart汽车与极斯在智驾方面合作的可能性非常高。

极斯虽然是一个造车企业，但也做了不少Tier 1的业务，向吉利体系内其他的整车品牌提供智驾方案。极斯为包括领克和远程卡车在内的吉利系车企提供端到端的智驾方案和研发服务。

极斯在其最新的财报中披露，其智驾业务达成的合同价值已累计达1.3亿美元，客户包括远程汽车、一家日本头部Tier 1和一家欧洲头部主机厂。

在极斯的战略计划中，还将努力拓展非吉利体系的客户，将非吉利体系客户的收入占比提升至70%以上。从这也能看出其将智驾Tier 1业务视为一个重要增长点。

据悉，为了端到端的研发，极斯从阿里达摩院挖来一些技术人才，未来还会和某头部造车新势力的端到端项目合作，该新势力还会使用其他Tier 1做后处理。

极斯之前被爆出裁员，而Smart汽车2024年的销量也出现显著下跌，如果双方合作，在降本增效方面会有明显改观。

数据显示，2024年三季度三季度的总营收为2.55亿美元，同比增长36%。极斯在财报中透露，目前高速NOA已经推送，包括欧洲地区也可用，城区NOA“开城”中，正在重点城市开放测试。

Smart汽车在智驾上选择与多个公司合作，Smart曾与亿咖通宣布成立合资公司智马达软件科技有限公司，同时还采用元戎启行提供的无图城区NOA功能。

在当前汽车行业红海血卷的形势下，大型整车企业整合旗下各品牌的资源发挥更大的协同作用是一个大趋势。

#DiffusionDrive

#机器人甚至可以在火锅店中无痛部署！

#生成模型 | 去噪扩散模型 DDPM 半小时理论扫盲

#VisionPAD

#2024年自动驾驶热门方向综述汇总

#HYPERmotion

#吉利系智驾或再将整合

#xxx

#xxx

#xxx

#xxx

相关文章：