淮安市建设银行网站首页,建设银行网站的服务管理,软件分销系统开发,wordpress安装教程 linux文章目录 NaviDiffusor: Cost-Guided Diffusion Model for Visual Navigation——NaviDiffusor#xff1a;用于视觉导航的代价引导扩散模型摘要I. 介绍II. 相关工作A. 视觉导航B. 用于规划的扩散模型 III. 方法A. 代价引导扩散模型B. 代价引导C. 从生成的候选路径中选择 IV. 实…文章目录NaviDiffusor: Cost-Guided Diffusion Model for Visual Navigation——NaviDiffusor用于视觉导航的代价引导扩散模型摘要I. 介绍II. 相关工作A. 视觉导航B. 用于规划的扩散模型III. 方法A. 代价引导扩散模型B. 代价引导C. 从生成的候选路径中选择IV. 实验A. 环境设置B. 模拟实验C. 现实世界实验V. 结论NaviDiffusor: Cost-Guided Diffusion Model for Visual Navigation——NaviDiffusor用于视觉导航的代价引导扩散模型摘要—视觉导航是移动机器人领域的一项基本挑战需要通用的策略来处理多样的环境。经典方法利用几何解法来最小化特定代价虽然具备对新场景的适应性但由于其多模块设计和对人工规则的依赖容易产生系统误差。基于学习的方法虽然实现了较高的规划成功率但在泛化到训练数据以外的未见环境时面临困难且通常需要大量的训练。为了解决这些局限性我们提出了一种混合方法结合了基于学习的方法和经典方法用于纯RGB视觉导航的优势。我们的方法首先在多样的路径-RGB观测对上训练一个条件扩散模型。在推理过程中它集成了可微的场景特定和任务级代价的梯度引导扩散模型生成满足约束的有效路径。这种方法免除了重新训练的需求提供了一种即插即用的解决方案。在模拟和现实世界场景中进行的室内外广泛实验表明了我们方法的零样本迁移能力与基准方法相比实现了更高的成功率和更少的碰撞。代码将发布在 https://github.com/SYSU-RoboticsLab/NaviD。I. 介绍视觉导航 [1], [2] 是机器人领域的一项基本挑战广泛存在于我们的日常生活中例如无人配送这要求对多样和未见环境具有适应性。虽然在已有预建地图的结构化环境中取得了显著进展但在没有先验信息的情况下仅基于有限的单目RGB观测在未知环境中进行路径规划仍然充满挑战。为了安全高效地导航机器人必须实时生成无碰撞路径利用可用的观测结果到达目标尽管场景信息不完整。以往的经典导航方法通常将流程分为感知、建图和路径规划其中路径规划模块通常依赖采样或优化技术来最小化设计的代价函数 [3], [4]。虽然这些方法规划有效且泛化性好但它们需要一个模块化的过程来管理实时感知维护高质量地图然后搜索有效路径。然而模块化设计通常在每个阶段都会遭受信息丢失降低了在多样和复杂环境中的整体鲁棒性并导致对周围环境的不切实际的建模。最近的端到端学习方法 [5], [6], [7]包括强化学习和模仿学习通过探索集成流程来缓解这些问题这些流程从大规模数据或与模拟环境的交互中学习直接从感知信息生成动作或路径。这使得网络能够形成对各种场景的先验理解并将其映射到有效动作。在实践中此类基于学习的方法可以快速响应并实现高性能。尽管取得了成功但它们在训练期间未遇到的分布外场景中面临泛化和稳定性的挑战。此外与零样本经典方法不同这些方法需要海量的高质量数据和巨大的训练成本。鉴于经典方法和基于学习的方法的局限性我们提出以下问题如何以无缝且高效的方式弥合视觉导航中经典代价设计与端到端学习方法之间的差距我们的核心思想是通过定制的代价引导将经典的显式约束引入隐式表示的推理阶段。我们首先在大规模的路点waypoint-based路径及其对应的RGB观测样本上训练一个条件生成模型即扩散模型 [8]以对路径规划先验进行建模。在采样过程中训练好的扩散模型通过k kk步迭代去噪来生成路径。这提供了一个独特的机会可以通过结合经典规划器中的任务级和场景特定代价来引导扩散模型确保路径满足场景约束同时保留其多模态性multimodality如图1所示。我们在各种场景中进行了实验包括室内和室外场景以及不同的目标模态即图像目标和点目标[9]使用两种机器人具身embodiments来展示我们的方法在实时生成有效路径并在现实世界中部署的有效性。广泛的结果和分析表明我们的方法在生成无碰撞路径方面优于基准方法特别是在具有多个随机障碍物的未知场景中。消融研究进一步表明代价引导在保证生成路径的分布满足场景约束方面起着不可或缺的作用。综上所述我们的主要贡献有我们介绍了一种结合经典方法和基于学习方法的视觉导航新框架通过结合设计代价的梯度来引导学习到的扩散模型的推理阶段。我们的方法在从模拟到现实世界的多样化场景中具有良好的泛化能力并且提出的路径选择策略从多模态路径分布中选择合适的候选路径以最小化路径波动。我们进行了广泛的实验以证明我们的方法在生成多模态无碰撞路径和现实世界部署方面的有效性。图 1. 机器人需要根据给定的 RGB 观测导航到目的地即图像目标或点目标。我们结合了碰撞和目标代价引导来改进局部路径生成。II. 相关工作A. 视觉导航导航在移动机器人领域已被广泛探索。经典导航方法通常将导航视为一个几何问题分解为两个阶段i) 使用 SfM 或 SLAM [10], [11], [12], [13] 感知并构建周围环境的地图以及 ii) 基于采样或优化 [14], [15], [16] 规划通往目标的无碰撞路径。在使用视觉输入进行建图的情况下诸如 [11], [17], [18] 等方法从视觉观测中提取特征以执行同时定位与建图Simultaneous Mapping and Localization[19]。最近的工作将研究兴趣转向开发直接从感知信息即 RGB、深度等推断动作的端到端策略 [20], [21], [22], [23], [24], [25]。这些工作展示了卓越的性能为学习用于目标导向探索的语义先验提供了机会 [26]但它们需要大数据集和大量的训练才能迁移到新场景。在仅有 RGB 输入的情况下在没有先验信息即 GPS、位置、地图等的未见环境中进行视觉导航仍然面临重大挑战。Zhu 等人 [27] 采用强化学习来解决目标驱动的视觉导航问题旨在基于给定的目标图像在小型室内场景中搜索目标。[28] 和 [29] 通过结合语义分割和空间注意力技术增强了视觉表示。ViNT [7] 提出了一种带有拓扑图的基础模型foundation model用于长程视觉导航。然而这些基于学习的方法在训练期间未覆盖的未见场景中面临泛化性和可靠性的挑战。相比之下我们的方法寻求将经典方法的优势与端到端学习相结合从而在各种视觉导航任务中实现可泛化且可靠的性能。B. 用于规划的扩散模型扩散模型已成为具有稳定训练特性的强大生成模型并在各个机器人领域展示了卓越的多模态生成能力 [30], [31], [32], [33]。在规划和控制方面Janner 等人 [34] 利用扩散模型在给定环境中直接推断高维轨迹。Diffusion Policy [35] 进一步探索了扩散模型的应用以学习用于行为克隆的视觉运动控制策略。最近的工作也展示了扩散模型在视觉导航背景下的潜力。特别是ViNT [7] 使用扩散作为子目标提议模型subgoal proposal model来生成子目标图像而 NoMaD [36] 类似于 Diffusion Policy [13]采用扩散在视觉观测的条件下直接推断多模态动作。与纯端到端方法不同我们探索了一种混合方法将场景特定的显式几何和任务级约束与来自预训练扩散模型的隐式局部路径建模相结合以生成满足特定任务要求的有效路径。III. 方法任务描述在这项工作中我们旨在设计一种用于视觉导航的局部路径规划策略。机器人被提供来自过去移动观测的 RGB 序列O { I t } t T − s T O \{I_t\}_{tT-s}^TO{It}tT−sT目标是生成未来的路点waypoint-based路径P { W t } t T T n P \{W_t\}_{tT}^{Tn}P{Wt}tTTn以引导机器人到达目标。我们考虑两种类型的目标i) RGB 图像目标G I G_IGI和 ii) 点目标G P G_PGP。该策略可以获取目标信息并通过提供安全、合理且无碰撞的路径自适应地导航到目的地。概述我们将局部路径规划公式化为一个条件生成建模问题第 III-A 节并从成对路径和 RGB 观测的大规模数据集D { ( P i , O i ) } i 1 n D \{(P_i, O_i)\}_{i1}^nD{(Pi,Oi)}i1n中训练一个扩散模型Φ θ \Phi_\thetaΦθ来学习先验p θ p_\thetapθ。如图 2 所示所提出的流程在扩散过程中引入了代价引导第 III-B 节。我们的目标是在观测O OO以及图像目标G I G_IGI如果适用的条件下通过代价引导的扩散模型Φ θ \Phi_\thetaΦθ采样一组路径候选。具体而言我们将路径的任务级目标和场景特定约束构建为可微代价F ( P ; O ) F(P;O)F(P;O)利用其梯度∇ F ( P ; O ) \nabla F(P;O)∇F(P;O)迭代引导扩散模型Φ θ \Phi_\thetaΦθ的逆向去噪过程。最后我们在特定约束下增强生成的路径候选的性能并基于路径估计器选择最佳路径进行实施第 III-C 节。图 2. 流程概览RGB 观测和图像目标经由两个编码器Ψ O \Psi_OΨO和Ψ G \Psi_GΨG处理随后输入 Transformer作为扩散模型的条件。设计的代价函数的梯度∇ F \nabla F∇F被纳入每个去噪步骤以引导局部路径生成。对于长程导航使用高层策略如拓扑地图来提供子目标同时支持图像和点目标。A. 代价引导扩散模型给定具体设计良好的可微代价一种直观的方法是直接在路点路径上执行梯度下降。然而路径分布的多模态性质很容易导致梯度下降方法陷入局部极小值并且也使得训练基于回归的模型变得不可行。因此我们将收集的数据集蒸馏为一个条件生成模型Φ θ \Phi_\thetaΦθ。受分类器引导classifier guidance[8] 的启发我们在采样阶段结合设计的代价函数来引导扩散过程。这种方法将生成引导至满足特定约束的路径从而在多模态多样性和场景特定引导之间实现平衡。1) 扩散模型我们采用扩散模型 [37], [38]这类概率生成模型以其稳定的训练和在条件生成建模方面的前景能力而闻名通过预测添加到样本中的噪声来对条件分布p f ( P ∣ O ) p_f (P|O)pf(P∣O)进行建模。训练过程涉及从数据集中采样数据点。对于每一对图像观测O OO和路径P PP我们在时间参数t ∈ [ 0 , 1 ] t \in [0, 1]t∈[0,1]上启动一个连续扩散过程{ P ( t ) } t 0 1 \{P(t)\}_{t0}^1{P(t)}t01。特别是我们随机采样一个时间步t tt并采样一个高斯噪声ϵ t \epsilon_tϵt添加到P 0 P_0P0以产生扰动样本P t P_tPt。图像观测O OO被视为条件损失函数定义如下L MSE ( ϵ t , Φ θ ( O , P t , t ) ) (1) \mathcal{L} \text{MSE}(\epsilon_t, \Phi_\theta(O, P_t, t)) \tag{1}LMSE(ϵt,Φθ(O,Pt,t))(1)当最小化目标L \mathcal{L}L时最优噪声预测网络Φ θ ∗ ( P , t ∣ O ) \Phi^*_\theta (P, t|O)Φθ∗(P,t∣O)逼近噪声的梯度场∇ E ( P ) \nabla E(P)∇E(P)。在测试阶段为了从训练好的扩散模型Φ θ \Phi_\thetaΦθ生成路径我们采用 DDPM [37] 执行t tt步迭代去噪从采样自高斯噪声的扰动样本P t P_tPt开始直到获得最终的无噪声样本P 0 P_0P0如下式所述P t − 1 α ( P t − γ Φ θ ( O , P t , t ) N ( 0 , σ 2 I ) ) (2) P_{t-1} \alpha(P_t - \gamma\Phi_\theta(O, P_t, t) \mathcal{N}(0, \sigma^2I)) \tag{2}Pt−1α(Pt−γΦθ(O,Pt,t)N(0,σ2I))(2)其中N ( 0 , σ 2 I ) \mathcal{N}(0, \sigma^2I)N(0,σ2I)表示每次迭代添加的高斯噪声α , γ , σ \alpha, \gamma, \sigmaα,γ,σ是函数的噪声调度可以视为梯度下降过程中的超参数。2) 代价引导采样在采样阶段我们结合场景特定和任务级代价函数F ( P ; O ) F(P;O)F(P;O)来引导逆向扩散过程朝向满足特定约束的期望路点路径。受 [8], [39], [40] 的启发我们通过利用显式代价表示称为代价引导扩展了基于分类器的引导。具体来说分类器梯度∇ p ϕ \nabla p_\phi∇pϕ被替换为代价函数的梯度∇ F ( P ; O ) \nabla F(P;O)∇F(P;O)该梯度被迭代计算并添加到在第t tt个时间步由扩散模型预测的中间路径P t P_tPt上进行引导。详细的提议过程总结在算法 1 中。算法 1给定扩散模型Φ θ \Phi_\thetaΦθ和设计目标F ( P ; O ) F(P;O)F(P;O)的代价引导逆向扩散采样1: 输入 设计目标F ( ⋅ ) F(\cdot)F(⋅)协方差调度Σ t \Sigma_tΣt以及梯度尺度s t s_tst2: 初始化 学习到的扩散网络Φ θ \Phi_\thetaΦθ接收到的视觉观测O OO3:P T ← P_T \leftarrowPT←从N ( 0 , I ) \mathcal{N}(0, I)N(0,I)中采样4: 对于所有t T t TtT到1 11执行5:P t − 1 ∼ N ( Φ θ ( P , t ∣ O ) s t ∇ P F ( P ; O ) , Σ ) \quad P_{t-1} \sim \mathcal{N}(\Phi_\theta(P, t|O) s_t\nabla_P F(P;O), \Sigma)Pt−1∼N(Φθ(P,t∣O)st∇PF(P;O),Σ)6: 结束循环7: 返回P 0 P_0P0B. 代价引导第 III-A.2 节介绍了从设计的代价函数计算梯度以引导路径采样过程。评估生成路径质量的代价函数由两个可微部分组成目标代价F g F_gFg和碰撞代价F c F_cFc。1) 点目标代价引导对于机器人需要导航到点目标的任务生成的路径分布应指向特定点。因此我们将目标代价F g F_gFg定义为路径P PP的最终路点与点目标G p G_pGp之间的欧几里得距离公式如下F g ( P ) ∥ W 0 − G p ∥ 2 , W 0 ∼ P (3) F_g(P) \|W^0 - G_p\|_2, \quad W^0 \sim P \tag{3}Fg(P)∥W0−Gp∥2,W0∼P(3)其中W t 0 W^0_tWt0表示采样阶段扩散模型生成的中间路径中的最后一个路点。图 4 展示了目标引导在扩散过程中的效果。从左到右随着我们增加引导尺度s ss提供了更多的目标代价引导提高了到达指定点目标的性能但减少了生成路径的多样性。因此我们可以通过调整尺度来平衡多样性和精度。2) 碰撞代价引导为了增强导航中的避障性能一种直接的方法涉及使用深度相机或 LiDAR 等传感器的深度信息来构建周围环境地图并检查路径是否与障碍物碰撞或距离过近。然而在仅使用 RGB 输入的视觉导航中真实的深度信息是不可用的。我们通过采用最先进的单目深度估计方法 Depth Anything V2 [41] 从 RGB 观测中估计深度来解决这个问题。然后基于估计的深度图像我们实时重建周围环境并构建局部截断符号距离函数 (TSDF) [42]以标记环境中每个位置到障碍物表面的距离。然后使用高斯滤波器对局部 TSDF 进行平滑处理以使其可微从而创建具有非负代价值的代价图C CC。图 3 可视化了估计的深度图像和相应的局部 TSDF 代价图显示了该方法在重建附近环境方面的有效性。为了适应各种机器人具身碰撞代价F c F_cFc不仅考虑路径P PP上的每个路点还考虑距离路径σ R \sigma_RσR处的垂直点其中σ R \sigma_RσR代表机器人宽度的一半。所有点都投影到代价图上以获得它们各自的代价值。碰撞代价F c F_cFc公式如下F c ( P ) ∑ t 1 n k t [ C ( W t ) C ( W t σ R ) C ( W t − σ R ) ] (4) F_c(P) \sum_{t1}^n k_t [C(W_t) C(W_t \sigma_R) C(W_t - \sigma_R)] \tag{4}Fc(P)t1∑nkt[C(Wt)C(WtσR)C(Wt−σR)](4)其中W t W_tWt表示路径中的所有路点k kk代表每个路点的代价影响因子。总体而言作为扩散引导的可微路径代价F FF被公式化为目标代价F g F_gFg和碰撞代价F c F_cFc的组合F ( P ) α F g ( P ) β F c ( P ) (5) F(P) \alpha F_g(P) \beta F_c(P) \tag{5}F(P)αFg(P)βFc(P)(5)其中α , β \alpha, \betaα,β是用于调整代价中各项尺度的超参数。图 3. 在 Stanford 2D-3D-S 环境中从 RGB 观测生成的示例估计深度及其局部 TSDF 代价图。图 4. 不同引导尺度的效果引导尺度从左到右递增对于每个尺度我们采样了 50 条有引导的路径红色和 50 条无引导的路径蓝色。C. 从生成的候选路径中选择扩散模型的性质使其能够在给定观测的情况下生成多模态路径。连续时间步之间突兀的路径选择可能导致轨迹不稳定和规划失败。如图 1 所示当遇到障碍物时路径分布变得过度偏离导致生成的路径在短时间内在左右分布之间快速切换这可能导致规划失败。为了缓解这个问题确保路径的一致性和平滑性至关重要。一致性为了确保决策一致性机器人的行驶方向应在相似的感知和目标条件下在连续时间步之间保持稳定避免快速波动。设S t { P 0 t , P 1 t , . . . , P n t } S_t \{P_0^t, P_1^t, ..., P_n^t\}St{P0t,P1t,...,Pnt}表示在时间t tt生成的n nn条路径P h P_hPh表示在先前时间步选择的路径。设V { P ∣ δ ( P t , P h ) ϵ , P ∈ S t } V \{P | \delta(P_t, P_h) \epsilon, P \in S_t\}V{P∣δ(Pt,Ph)ϵ,P∈St}其中δ \deltaδ测量方向差异ϵ \epsilonϵ是差异阈值V VV中的路径表示与历史时间的路径一致的可选动作。S t S_tSt中V VV的比例确保了所选路径保持一致。连续性扩散模型生成的路径缺乏时间连续性导致运动过程中的犹豫。基于一致性的路径选择允许使用历史路径的运动趋势来校正当前的动作状态提供更好的连续性。这是通过对来自历史和当前时间步的最终选定路径点应用加权平均滤波来实现的。IV. 实验在本节中我们通过模拟和真实世界实验在两种目标模态和三个难度级别下涵盖室内和室外环境全面评估我们的方法。在接下来的部分中将提供任务设置、评估指标和实验结果的概述。A. 环境设置数据集为了公平比较我们的方法和所有基准方法使用相同的数据集进行训练。遵循 [36]训练数据包括从各种环境和不同机器人平台收集的示例包括 RECON [43]、SCAND [44]、GoStanford [45] 和 SACSoN [46]。具体而言数据集包含连续帧的图像序列并附有相应的位置数据。模型训练训练过程使用带有学习率调度器的 AdamW 优化器进行管理训练批次大小为 256。训练过程在单个 NVIDIA RTX TITAN 上进行大约需要 39 小时收敛。在采样过程中步数k kk配置为 10。基准方法我们将我们的工作与两个 SOTA 基准方法NoMaD [36], ViNT [7]在图像目标导航任务中进行比较。遵循 [7]我们通过添加线性层和激活函数来扩展这两个基准方法以适应点目标输入这些层将输入的目标坐标映射到它们共享的 token 空间。指标我们报告三个评估指标长度Length成功任务的路径长度的均值和方差碰撞Collision每次试验的平均碰撞次数成功率Success在相同条件下的成功率如果机器人未能到达目的地或因碰撞被卡住、超过时间限制则试验终止并标记为失败。实验设置我们在室内和室外模拟环境中将我们的方法与基准方法和消融实验进行了比较证明了我们方法的有效性。此外我们将我们的方法应用于机器人以展示其在现实世界应用中的性能。该模型在部署于机器人上的 Nvidia Jetson Orin AGX 上运行仅使用 RGB 输入。对于图像目标任务我们仅使用碰撞代价引导。对于位置目标任务我们同时采用目标代价和碰撞代价进行引导。路径选择被应用于这两种任务中。我们将默认参数设置为α 0.3 \alpha0.3α0.3θ π / 4 \theta\pi/4θπ/4碰撞代价的权重为 0.006目标代价的权重为 0.03。对于碰撞代价应用了非均匀权重缩放给每个点赋予一个额外的权重系数从近距离到远距离线性地从 0 增加到 1。在现实世界实验中机器人的线速度和角速度分别为0.5 m / s 0.5m/s0.5m/s和0.4 r a d / s 0.4rad/s0.4rad/s。图 5. 在 2D-3D-S 和 Citysim 环境的基础和额外障碍物设置下所提出的 NaviDiffusor红色与基准方法 NoMaD蓝色之间的路径定性比较。我们的方法避开了未出现在拓扑地图中的额外障碍物而基准方法则失败了。B. 模拟实验我们在两种类型的场景中进行模拟实验图 5i) 室内Stanford 2D-3D-S [47]ii) 室外Gazebo citysim [48]。在每个场景中我们考虑了基础导航任务和目标更远的长距离任务测试期间不引入额外障碍物以及更具挑战性的障碍物任务其中包括拓扑结构和训练数据集中未知的随机新障碍物。如图 5 所示两种方法在没有障碍物的基础任务中表现出相当的性能。在带有随机障碍物的挑战性任务中所提出的引导方法始终能避免碰撞并到达目的地而基准方法经常被随机的未知障碍物卡住。表 I 展示了进一步综合评估的结果。我们通过在两种类型的场景中为每个任务运行所有备选方案的 50 次试验定量评估了我们提出的方法、基准方法和消融实验。表 I所提出的 NAVIDIFFUSOR 与基准及消融实验之间的定量比较目标类型场景方法基础任务长度 (m)基础任务碰撞基础任务成功率障碍物任务长度 (m)障碍物任务碰撞障碍物任务成功率长距离任务长度 (m)长距离任务碰撞长距离任务成功率图像目标室内(2D-3D-S)ViNT [7]41.1 ± 3.1720.6668%21.4 ± 0.3140.7342%152.3 ± 31.5901.0234%NoMaD [36]42.9 ± 3.2830.3786%20.3 ± 0.2430.9858%154.2 ± 27.3810.7440%本文方法 (无引导)42.2 ± 3.2810.0582%20.0 ± 0.2440.4352%149.4 ± 27.2570.8340%本文方法42.7 ± 3.2780.04100%19.5 ± 0.2150.08100%147.5 ± 24.3020.4274%室外(Citysim)ViNT [7]87.8 ± 21.5970.2258%67.7 ± 26.0310.4238%258.1 ± 64.1850.7720%NoMaD [36]89.4 ± 15.3480.1378%68.1 ± 26.2590.3454%247.6 ± 67.6790.5836%本文方法 (无引导)83.5 ± 13.9720.1878%64.7 ± 20.8460.3848%230.5 ± 59.3840.6942%本文方法70.8 ± 9.5610.0298%53.3 ± 14.2790.0392%187.6 ± 38.1860.2868%点目标室内(2D-3D-S)ViNT-P40.4 ± 1.3990.1262%21.2 ± 0.2400.8638%152.3 ± 29.5260.9250%NoMaD-P41.5 ± 1.4920.0880%21.7 ± 0.2510.7446%144.2 ± 21.1210.5572%本文方法 (无引导)41.8 ± 1.4860.0776%21.6 ± 0.2470.6142%147.5 ± 21.0820.5974%本文方法38.4 ± 0.7670.01100%18.7 ± 0.1340.0792%135.7 ± 17.0820.2886%室外(Citysim)ViNT-P68.1 ± 5.4990.1272%55.7 ± 12.5890.6834%216.5 ± 39.1590.6634%NoMaD-P69.5 ± 5.6580.0988%57.9 ± 13.1090.6242%203.8 ± 49.5610.5748%本文方法 (无引导)69.1 ± 5.6890.0886%56.8 ± 12.8410.5838%197.5 ± 42.9820.5548%本文方法64.2 ± 1.8620.01100%48.8 ± 3.2670.0286%169.5 ± 25.3490.2182%− P -P−P表示基准模型的扩展以适应点目标输入。针对所有场景下的每个任务所有方法均进行了 50 次试验。1) 图像目标导航在室内场景的图像目标任务中NaviDiffusor 表现异常出色。在没有引导的情况下它实现了 82% 的成功率接近 NoMaD 的 86%。在有引导的情况下NaviDiffusor 达到了 100% 的成功率超过了所有其他方法。在障碍物任务中它显著减少了碰撞平均仅为 0.08 次同时保持了 100% 的成功率。在长距离任务中NaviDiffusor 在路径规划方面表现出色以最低的碰撞率和最高的成功率取得了最佳结果。在室外场景中NaviDiffusor 也显示出明显的优势。在基础任务中它在有引导的情况下实现了 98% 的成功率以更短的路径长度优于其他方法。在障碍物任务中它以仅 0.08 次碰撞保持了 100% 的成功率远好于 NoMaD 的 54%。在长距离任务中NaviDiffusor 保持稳定高效实现了 68% 的成功率在复杂环境中领先于其他方法。与其他方法相比路径选择策略使我们的方法在路径长度上表现出更实质性的改进如图 5 中增强的路径稳定性所证明的那样。2) 点目标导航NaviDiffusor 在点目标任务中也表现出色。在室内场景的基础任务和障碍物任务中它都实现了 100% 的成功率其路径规划的准确性和鲁棒性明显优于 NoMaD 和其他基准方法。在室外场景的长距离任务中NaviDiffusor 保持了 82% 的成功率与其他方法相比具有更低的碰撞率和更优的路径规划质量。总体而言NaviDiffusor 在不同场景和任务中均表现出色特别是在障碍物密集和长距离导航任务中其成功率和避障能力显著优于 NoMaD 等基准方法。这表明 NaviDiffusor 在解决复杂导航任务方面具有很强的适应性和鲁棒性使其成为一种高效可靠的路径规划方法。值得注意的是在消融研究中我们没有代价引导的方法显示出性能的显著下降特别是在具有挑战性的场景中。图 6. 轮腿式机器人在室外和室内场景中进行现实世界实验的定性结果。可视化了四个规划事件包括有引导黄色和无引导蓝色的情况。C. 现实世界实验接下来的实验展示了我们的方法在使用轮腿式机器人 Diablo [49] 和 Jackal 在现实世界场景中的有效性两者都仅配备了 Intel Realsense D435i 用于 RGB 观测。如图 6 所示引导显著改善了路径规划。在没有引导的情况下机器人的路径蓝色曲线更加不确定偏差在室外尤为明显。在复杂的室内环境中路径效率低下且容易发生碰撞尽管仍能到达目标。这表明 NaviDiffusor 可以在没有引导的情况下规划可行的路径但稳定性和效率会降低。在有引导的情况下机器人在两种设置中都遵循更直接、更高效的路径减少了发散和碰撞。这种改进在室外场景中尤为明显机器人更直观、准确地向目标移动。引导显著提升了 NaviDiffusor 在具有挑战性的未知环境中的性能。V. 结论在这项工作中我们探索了一种结合经典方法和基于学习方法优势的混合机制。具体而言所提出的 NaviDiffusor 从具有成对 RGB 观测的大规模有效路径中学习先验并在推理阶段直接由所提出的任务级和场景特定代价设计进行引导。这种方法利用经典方法的泛化性和鲁棒性辅助扩散模型生成满足多种约束的路径。此外这种方法可以为给定的观测生成多模态路径从而促进使用特定的高层策略进行最佳路径选择这对于在真实机器人系统中部署至关重要。我们的结果包括现实世界实验表明在无需微调的情况下该方法在更复杂的各种新场景中具有卓越的泛化能力和可靠性。虽然实验展示了这种引导框架的有效性但它仍然需要复杂的代价函数设计。未来的工作可以探索用于代价引导设计和参数优化的智能方法。