银河通用TrackVLA++ vs TrackVLA:具身智能技术测评
要说银河通用(Galbot)在具身智能导航领域的布局,堪称一套“教科书级”组合拳——三篇论文层层递进,一步步将技术边界推向新高度。
2024年发布的 TrackVLA 打响了第一枪。它首次将视觉语言模型(VLM)扩展为视觉语言动作模型(VLA),专攻具身视觉跟踪。传统“先识别再规划”的串行思路,总是因为目标识别和轨迹规划各自为战,误差不断累积,最终导致偏离目标。TrackVLA 的精彩之处在于,它用端到端方式将这两个环节合二为一,从根本上解决了问题。
到了2025年初,Na vFoM 大幅拉高了格局。它不再局限于单一跟踪任务,而是瞄准“通用导航基础模型”,无论是视觉语言导航、目标搜索、主动跟踪,还是自动驾驶,都能应付,且不挑机器人平台。紧接着同年诞生的 TrackVLA++,则是在 Na vFoM 这个大底盘上,回头深耕跟踪这个细活。它引入了极坐标推理和目标记忆机制,专门应对遮挡和干扰场景——说白了,就是让机器人在复杂环境中也能死死咬住目标不跟丢。
从单任务到多任务,从隐式学习到显式推理,这三篇文章描绘了一条清晰的技术演进脉络。
1.1 技术迭代路线图
1.2 核心问题与解决方案演进
仔细梳理这三篇工作的脉络,它们其实是在逐一攻克具身导航领域三个层次的核心难题。
TrackVLA 要解的第一个结是:“识别”和“规划”如何不再打架? 传统做法把目标检测和路径规划拆成两个独立模块,结果一个模块出错,错误就像滚雪球般传到下一个模块。TrackVLA 用端到端的VLA框架将它们捏在一起,并搭配 Anchor-based Diffusion 加速轨迹生成,为老问题开出了一剂新药。
Na vFoM 往前推进了一步:如何让一个模型同时应对不同的任务和不同的机器人? 这里面门道不少:不同相机配置如何统一?长时间导航积累的历史帧怎么处理?它用 TVI Tokens 编码时间和视角信息,再用 BATS 采样策略动态控制计算预算,将这些难题一一化解。
TrackVLA++ 则把矛头对准了跟踪任务里最令人头疼的场景:目标被遮挡怎么办?周围有外观相似的干扰物怎么办? 它设计了 Polar-CoT,让模型先显式地“思考”目标在哪个方向、距离多远,而不是在黑箱里瞎猜。再配上 TIM 记忆机制,目标消失时能记住它的样子,等目标重新出现时不会被干扰物带偏。
| 阶段 | 核心问题 | 解决方案 | 训练规模 |
|---|---|---|---|
| TrackVLA | 如何将识别与规划统一? | VLA框架 + Anchor-based Diffusion | 1.7M样本 |
| Na vFoM | 如何支持多具身多任务? | TVI Tokens + BATS采样策略 | 8M样本 |
| TrackVLA++ | 如何处理遮挡和干扰物? | Polar-CoT推理 + TIM记忆 | 2M样本 |
2. TrackVLA:具身视觉跟踪的VLA先驱
2.1 问题背景
具身视觉跟踪(EVT)的核心,是让机器人在真实三维环境中,根据一句自然语言指令(比如“跟着穿蓝衬衫的那个人”),持续锁定目标并跟上去。听起来不难?和二维视频里框出目标完全是两码事。机器人不仅要认出目标是谁,还得规划出自己该怎么走才能跟上。
传统做法通常拆成两步:先用目标检测或行人重识别模型定位目标在图像中的位置,再把结果扔给路径规划模块生成移动指令。问题恰恰出在这里——误差累积。检测模块一旦看走眼(比如把干扰物当成目标),规划模块就会基于错误信息做出错误决策;反过来,如果规划不当导致机器人走偏,下一帧的检测也会变得更困难。这是一个恶性循环。
TrackVLA 的核心贡献,就是提出了一个端到端的统一框架,让目标识别和轨迹规划在同一个模型里协同学习,从根子上掐断了误差累积的链条。
2.2 核心架构
TrackVLA 的整体架构遵循VLA的标准范式:视觉编码器、大语言模型骨干网络、动作预测头,三位一体。它的设计哲学很明确——让模型在理解视觉场景和语言指令的同时,直接输出机器人能执行的指令,而不是先算一堆中间表示再转交给下游模块。这种端到端的设计,使得识别能力和规划能力可以相互促进。下面拆开来看几个关键组件。
2.2.1 观察编码(Observation Encoding)
视觉编码方面,TrackVLA 选用了预训练的 EVA-CLIP。该模型经过大规模图文对比学习训练,语义理解能力很强。输入的图像序列经过处理后,每帧图像会被分割成若干patch,然后通过Transformer编码器生成视觉token。
但问题来了——如果所有历史帧的全部token一股脑儿全丢进大语言模型,序列长度会爆炸,计算成本根本吃不消。于是 TrackVLA 采用了双分辨率 Grid Pooling 策略:当前最新帧保留细粒度token用于精准识别,历史帧只保留粗粒度token提供大致上下文。背后的逻辑很直接:当前观察必须精细,历史观察知道个大概就行。
2.2.2 滑动窗口机制
实际跟踪任务中,机器人可能要持续跟踪目标好几分钟。如果不加限制地保留所有历史帧,即使经过Grid Pooling压缩,输入序列还是会越来越长,推理速度会越来越慢,最终无法满足实时性要求。
解决方案很干脆:固定大小的滑动窗口,窗口大小设为若干帧。每个时间步只保留最近的N帧,更早的信息直接丢弃。这样一来,推理时间就是恒定的,不管跟了多久,速度都不会变慢。窗口内的视觉token组织方式也有讲究:前面几帧用粗粒度表示,最新帧用细粒度表示,总token数量保持不变,效率很稳定。
2.2.3 大语言模型前向传播
视觉token和语言指令token拼接后,一起送入大语言模型骨干网络。TrackVLA 选的是 Vicuna-7B,一个基于LLaMA微调的开源对话模型,指令理解能力不错。
有意思的是,TrackVLA 设计了一个灵活的多任务输出机制:根据指令里是否包含特殊的 [Track] 标记,输出会走向不同分支。如果指令里有这个标记,模型进入跟踪模式,只做单步自回归,输出一个动作token交给后续模块生成轨迹;如果没有这个标记(比如“描述一下你正在跟着的那个人”),模型就进入对话模式,开始完整的自回归解码,逐token生成文本答案。这种设计让同一个模型既能跟踪,又能问答——“识别”与“规划”在这里真正统一了。
2.2.4 Anchor-based Diffusion Action Model(核心创新)
这是 TrackVLA 最亮眼的创新点。扩散模型在机器人控制领域表现不俗,但有个硬伤:需要很多步去噪,推理速度慢。TrackVLA 的团队想了个巧妙的办法:机器人轨迹的分布其实是有规律的,可以提前学一组“轨迹锚点”来覆盖常见的运动模式。
具体做法是:先从训练数据里收集所有轨迹样本,用K-means聚类成K个有代表性的轨迹锚点,每个锚点包含若干路点,表示机器人在未来几个时间步的目标位置和朝向。直行、左转、右转、原地旋转——这些常见模式都能被覆盖。
推理的时候,模型不再从纯高斯噪声开始去噪,而是从这些预定义的轨迹锚点出发。先给每个锚点加点噪声,然后把带噪锚点和LLM输出的条件特征一起丢进 DiT 网络,只跑2步DDIM去噪,就能输出去噪后的轨迹和对应的置信度分数。最后挑出置信度最高的轨迹作为最终输出。这套“锚点+少量去噪”的策略实现了5倍加速,推理帧率达到10 FPS,实时跟踪完全没问题。
2.3 训练数据与基准
TrackVLA 不只是提出了新架构,还顺手构建了具身视觉跟踪领域的第一个标准化基准测试集 EVT-Bench。基于 Habitat 仿真平台和 HM3D 室内场景数据集,包含三个难度递增的子任务。
第一个是单目标跟踪,场景里只有一个人,指令也简单(比如“跟着那个人”),主要测基础能力。第二个是干扰跟踪,场景里有好几个长相相似的人,指令里必须包含细粒度描述(比如“跟着穿蓝衬衫黑裤子的人”),考验细粒度识别和区分能力。第三个是歧义跟踪,最难的一个——场景里有好几个穿着完全一样的人(比如工装),指令还故意含糊,模型得靠目标的初始位置、运动轨迹等上下文信息来推断该跟谁。
| 子任务 | 英文缩写 | 难度 | 描述 |
|---|---|---|---|
| 单目标跟踪 | STT | 简单 | "Follow the person" 等简单指令 |
| 干扰跟踪 | DT | 中等 | 存在多个干扰人物,需要细粒度识别 |
| 歧义跟踪 | AT | 困难 | 存在外观相同的干扰物,指令模糊 |
训练数据方面,TrackVLA 采用双任务联合训练,总共用了约1.7M个样本。其中一半来自 EVT-Bench 的跟踪训练集,另一半是开放世界识别数据,包括人物属性识别和通用VQA数据。这样的组合让模型既能跟踪目标,也能回答关于目标的开放式问题,实现了真正的多任务统一。
3. Na vFoM:跨具身跨任务的导航基础模型
3.1 问题背景
TrackVLA 发布之后,团队很快意识到一个更大的问题:现有的具身导航方法太碎片化了。任务层面,视觉语言导航、目标搜索、视觉跟踪、自动驾驶……每个任务都有自己的模型架构和训练流程,研究者得从头设计训练。平台层面,轮式机器人、四足机器人、人形机器人、无人机、自动驾驶汽车,因为传感器配置和运动学特性不同,也得各搞一套模型。这不仅浪费资源,也阻碍了知识在不同任务和平台之间的迁移。
Na vFoM 的目标很明确:搞一个统一的导航基础模型,能同时处理多种导航任务、支持多种机器人平台。要实现这个目标,得解决两个技术难题:第一,模型怎么理解来自不同相机配置的视觉输入(数量从1到8个不等,视角各异);第二,长时间导航任务会产生大量历史帧,怎么在保持计算效率的同时不丢失关键信息。Na vFoM 用两个关键创新——TVI Tokens 和 BATS 采样策略——把这两个问题解决了。
3.2 核心架构
Na vFoM 的整体架构延续了VLA的基本范式,但在多个关键组件上做了重大升级。语言模型骨干从 Vicuna-7B 升级为更强大的 Qwen2-7B,视觉编码器也从单一的 EVA-CLIP 升级为 DINOv2 和 SigLIP 双编码器组合。DINOv2 擅长捕捉几何结构和空间关系,SigLIP 擅长理解语义内容,两者特征拼接后,模型同时具备了空间感知和语义理解能力。下面看四个核心组件。
3.2.1 多视角观察编码
Na vFoM 最显著的升级之一是支持1到8个相机的任意配置。不同机器人平台相机配置千差万别:轮式机器人通常只有一个前向相机,四足机器人可能前后左右四个,自动驾驶汽车则可能多达8个环视相机。Na vFoM 需要以统一的方式处理这些不同配置的输入。
对于每个相机在每个时间步捕获的图像,先用 DINOv2 和 SigLIP 双编码器分别提取特征,然后拼接。和 TrackVLA 类似,也采用 Grid Pooling 策略压缩:当前时间步的图像保留细粒度表示,历史时间步的只保留粗粒度表示。这样,就算有多个相机和较长的历史序列,输入token数量也能控制在合理范围内。
3.2.2 Temporal-Viewpoint Indicator (TVI) Tokens(核心创新1)
TVI Tokens 是 Na vFoM 最重要的技术创新之一。问题的本质在于:当来自不同相机、不同时间步的视觉token被拼接成一个长序列输入LLM时,模型根本分不清哪些token来自前向相机、哪些来自后向相机,也分不清哪些是当前帧、哪些是历史帧。这种歧义会严重影响模型对场景的空间和时序理解。
Na vFoM 的解决方案很优雅:给每组视觉token配一个“身份标识符”。在每个相机、每个时间步的视觉token序列前面,插入一个 TVI token,告诉LLM这组token来自“什么时间、什么方向”。TVI token的嵌入向量由三部分组成:可学习的基础嵌入、时间位置编码、方位角位置编码。根据任务类型不同,可以灵活组合——单帧图像QA只需要基础嵌入,视频QA需要加时间编码,导航任务则需要完整的三部分。
3.2.3 Budget-Aware Temporal Sampling (BATS)(核心创新2)
BATS 是 Na vFoM 的第二个核心创新。长时间导航任务中,历史帧管理是个大难题。如果以5 FPS的频率采集图像,一个10分钟的任务就会产生3000帧。就算经过Grid Pooling压缩,每帧仍需几个token,总数还是远远超出LLM的有效处理范围。
TrackVLA 用固定滑动窗口解决这个问题,但代价是丢弃所有超出窗口的历史信息。对于需要长程规划的导航任务(比如“回到刚才经过的厨房”),这种丢弃可能导致任务失败。Na vFoM 的设计思路来自人类记忆的“遗忘曲线”:越近的帧越重要,保留概率应该更高;越远的帧可以适度遗忘,但不能完全丢弃。基于这个思想,BATS 设计了一种指数衰减的采样策略,能够根据token预算自动调整采样率,确保无论任务持续多久、用多少个相机,推理时间都保持恒定。
3.2.4 轨迹预测头
动作预测方面,Na vFoM 选择了和 TrackVLA 不同的路线。TrackVLA 用 Anchor-based Diffusion,表达能力虽强但计算开销大。Na vFoM 的方案更直接:一个3层MLP,直接从LLM输出的动作token预测轨迹。背后逻辑是:当模型规模足够大、训练数据足够多时,LLM骨干网络本身已经有了强大的表征能力,不需要复杂的动作头来补。而且MLP的推理速度远快于扩散模型,有利于在多任务场景下保持统一的效率。
3.3 支持的任务与具身类型
Na vFoM 的设计目标很明确:“一个模型,多种任务,多种机器人”。任务层面,它支持四种主流的具身导航任务:视觉语言导航、目标搜索、主动视觉跟踪、自动驾驶,覆盖从室内到室外、从小型机器人到大型车辆的广泛应用场景。
机器人平台层面,它支持五种不同类型:轮式机器人、四足机器人、人形机器人、无人机、自动驾驶汽车。通过 TVI Tokens 统一编码不同相机配置,通过任务相关的缩放因子适配不同的动作空间,实现了对这些多样化平台的统一支持。
3.4 Na vFoM相比TrackVLA的改进
Na vFoM 在多个维度上对 TrackVLA 做了全面升级。感知能力上,从单相机扩展到1-8相机任意配置,引入 TVI Tokens 解决多视角歧义问题,获得360°环境感知能力。任务范围上,从单一的跟踪扩展到四种任务,真正实现了导航基础模型的愿景。模型架构上,升级了视觉编码器和LLM骨干,简化了动作预测头。历史管理上,用 BATS 动态采样替代固定滑动窗口,在控制计算预算的同时保留了更长时间范围的历史信息。训练规模也从1.7M扩大到12.7M,增长了约7.5倍。
| 维度 | TrackVLA | Na vFoM |
|---|---|---|
| 相机支持 | 单相机 | 1-8相机任意配置 |
| 任务范围 | 仅跟踪 | VLN+搜索+跟踪+驾驶 |
| 具身类型 | 轮式机器人 | 多种机器人平台 |
| 视觉编码 | EVA-CLIP | DINOv2 + SigLIP |
| 动作模型 | Anchor-based Diffusion | MLP (更简单高效) |
| 历史处理 | 固定滑动窗口 | BATS动态采样 |
| 视角编码 | 无 | TVI Tokens |
| 训练规模 | 1.7M | 12.7M |
4. TrackVLA++:推理与记忆增强的跟踪模型
4.1 问题背景
Na vFoM 虽然成功实现了跨任务、跨具身的通用导航能力,但团队发现,在具身视觉跟踪这个特定任务上,它仍然有两个棘手的短板,而这恰恰是跟踪任务区别于其他导航任务的核心挑战。
第一个是缺乏显式空间推理。 Na vFoM(以及 TrackVLA)的动作预测完全依赖LLM的隐式推理——模型在“黑箱”里完成从视觉输入到动作输出的映射,我们无法知道它是否真正“理解”了目标在哪个方向、距离多远。简单场景下没问题,但一旦出现多个外观相似的干扰物,模型就经常搞混,因为它没有明确的机制去“思考”和区分不同物体的空间位置。
第二个是长时遮挡导致目标丢失。 真实场景中,目标经常会被障碍物挡住(走进电梯、绕过柱子、被人群遮挡)。目标消失的时候,Na vFoM 只能靠历史帧里的运动趋势来猜,但随着 BATS 采样,历史帧里的目标特征会被逐渐“稀释”。更麻烦的是,当目标重新出现时,模型可能会被场景里长得像的干扰物“骗”过去,转而跟踪错误的目标。
TrackVLA++ 针对这两个问题,在 Na vFoM 的架构基础上引入了两个关键创新:Polar-CoT(极坐标思维链)让模型显式推理目标的空间位置,TIM(目标识别记忆)让模型在遮挡期间保持对目标身份的记忆。
4.2 核心架构
TrackVLA++ 的架构在 Na vFoM 基础上增加了两个关键模块:Polar-CoT 推理模块和 TIM 记忆模块。一个负责显式推理目标的空间位置,一个负责在遮挡期间保持目标身份记忆。值得一提的是,TrackVLA++ 专注于跟踪任务的性能提升,不追求 Na vFoM 那样的多任务通用性。
4.2.1 Polar Chain-of-Thought (Polar-CoT)(核心创新1)
Polar-CoT 让模型在预测动作之前,先显式地“思考”目标在哪个方向、距离多远。这种“先推理后行动”的设计灵感来自大语言模型中的思维链技术,但针对具身跟踪任务做了专门优化。
为什么不直接用传统的边界框预测? 现有的VLA模型如果要显式定位目标,通常会预测目标在图像中的边界框坐标。但这种方法在多相机场景下问题不少:当目标出现在多个相机的视野中时,需要预测多个边界框,模型还得处理“哪个相机的哪个框对应目标”的歧义。此外,边界框预测需要输出至少4个token,计算开销不小。
Polar-CoT 的解法很巧妙:用极坐标来表示目标位置。 以机器人为中心建立极坐标系,目标的位置用方位角(目标在哪个方向)和距离(目标有多远)两个值就能唯一确定。这种表示天然适合多相机场景——无论目标出现在哪个相机的视野里,它的极坐标表示都是唯一的。
为了进一步提高效率,TrackVLA++ 把极坐标空间离散化为一个有限的词汇表。方位角分成60个等分(每个扇区6°),距离分成30个等分(从0.6m到5.0m),总共形成1800个扇区,每个扇区对应一个唯一的vocabulary token,再加一个特殊的 token表示目标不可见(被遮挡或超出视野),总共1801个推理token。这样一来,模型只需要预测一个token就能完成目标定位,计算开销降到了最低。
4.2.2 Target Identification Memory (TIM)(核心创新2)
TIM 解决的是目标被遮挡时如何保持身份记忆的问题。核心思想很直观:当模型确信看到目标时,更新记忆以跟踪目标的最新外观;当模型不确定或目标被遮挡时,冻结记忆,避免被干扰物污染。
TIM 的更新机制和 Polar-CoT 紧密配合。每个时间步,Polar-CoT 先预测目标的极坐标位置(或 ),同时输出一个置信度分数。这个分数基于推理token的预测概率分布计算:如果模型非常确定目标在某个位置,输出概率分布会很“尖锐”(熵低),置信度高;如果不确定,分布会比较“平坦”(熵高),置信度低。
这个设计的直观含义是:如果当前置信度高于历史平均水平,说明当前观察质量好,应该大幅更新记忆;反之则应该保守更新。当 Polar-CoT 预测 (目标不可见)时,置信度被强制设为0,记忆完全冻结,避免被遮挡期间的无关信息污染。
4.2.3 完整推理流程
TrackVLA++ 的推理流程比 Na vFoM 复杂一些,因为需要执行两次LLM前向传播:第一次用于 Polar-CoT 推理,第二次用于动作预测。
步骤1:视觉编码。 和 Na vFoM 一样,用 DINOv2 和 SigLIP 双编码器处理当前帧图像,通过 Grid Pooling 得到细粒度视觉特征,同时通过 BATS 采样获取历史帧的粗粒度特征。
步骤2:特征投影。 将视觉特征和 TIM 记忆状态分别投影到LLM的嵌入空间。
步骤3:Polar-CoT 推理(第一次LLM前向)。 把记忆特征、视觉特征和语言指令特征拼接后输入LLM,执行单步自回归,输出推理token。将这个token解码为极坐标位置或 ,同时计算置信度。
步骤4:TIM 更新。 如果 Polar-CoT 预测了有效目标位置,从视觉特征中提取对应位置的视觉特征,根据置信度加权更新 TIM 记忆。如果预测为 ,记忆保持不变。
步骤5:动作预测(第二次LLM前向)。 将更新后的记忆特征、视觉特征、语言特征和 Polar-CoT 输出拼接后再次输入LLM,输出动作token,通过MLP动作头生成轨迹。
步骤6:执行。 机器人按照预测的轨迹移动,进入下一个时间步。
4.3 训练损失
TrackVLA++ 的训练采用多任务联合损失函数,同时优化轨迹预测、Polar-CoT 推理和语言理解三个目标。总损失函数包含三项:轨迹预测的均方误差损失、Polar-CoT 推理token的交叉熵损失、语言建模损失。
这种多任务损失设计有两个重要考量。推理损失的权重相对较小,因为推理任务本身不是最终目标,而是服务于更好的轨迹预测——权重过大可能导致模型过度关注定位精度而忽略动作规划质量。语言损失用于保持模型的语言理解能力,使其能处理开放式的目标描述和场景问答。
4.4 训练数据
TrackVLA++ 的训练数据基于 EVT-Bench 构建,但做了重要扩展以支持 Polar-CoT 监督学习。和 TrackVLA、Na vFoM 不同,TrackVLA++ 的跟踪数据需要包含每一帧的目标极坐标标注——目标相对于机器人的方位角和距离。这些标注通过仿真器的真值信息自动生成,不需要人工标注。总训练数据量约2M样本,虽然比 Na vFoM 的12.7M少,但针对跟踪任务做了专门优化。
训练数据包括四部分:约1M的 Polar-CoT 跟踪数据(核心,包含多视角图像序列、语言指令、极坐标标注和轨迹真值);约294K的人物识别VQA数据,增强模型对人物外观特征的理解;约205K的图像QA数据,保持通用视觉理解能力;约501K的视频QA数据,增强对时序信息的理解。
| 数据类型 | 样本数 | 说明 |
|---|---|---|
| Polar-CoT跟踪数据 | 1M | 多视角,带极坐标标注 |
| 人物识别VQA | 294K | SYNTH-PEDES |
| 图像QA | 205K | 公开数据集 |
| 视频QA | 501K | 公开数据集 |
| 总计 | 2M | - |
4.5 TrackVLA++相比Na vFoM的改进
TrackVLA++ 可以看作是 Na vFoM 在跟踪任务上的“专精版本”。它继承了 Na vFoM 的多相机支持和 BATS 采样策略,同时针对跟踪任务的特殊需求增加了两个关键模块。空间推理能力上,Na vFoM 依赖LLM的隐式推理,TrackVLA++ 通过 Polar-CoT 实现了显式的极坐标推理,模型必须先“思考”目标在哪里,再决定怎么移动。长期记忆能力上,Na vFoM 只靠 BATS 采样保留历史帧信息,没有专门的目标记忆机制,TrackVLA++ 的 TIM 模块则可以在目标可见时持续更新目标特征记忆,目标被遮挡时冻结记忆,有效防止被干扰物误导。
当然,这些改进是有代价的。由于需要执行两次LLM前向传播,TrackVLA++ 的推理速度约为4.8 FPS,略低于 Na vFoM 的约5 FPS。此外,它专注于跟踪任务,不支持 Na vFoM 的其他导航任务,是一个任务专用模型而非通用基础模型。
| 维度 | Na vFoM | TrackVLA++ |
|---|---|---|
| 空间推理 | 隐式 | Polar-CoT显式推理 |
| 长期记忆 | 无(仅滑动窗口) | TIM目标识别记忆 |
| 遮挡处理 | 容易丢失目标 | 置信度门控保护 |
| 干扰物区分 | 依赖隐式学习 | 推理引导特征提取 |
| 推理开销 | 1次LLM前向 | 2次LLM前向(CoT+Action) |
| 任务范围 | 多任务通用 | 跟踪专精 |
5. 总结
回头看,三个模型的技术演进路径很清晰:TrackVLA 打基础,Na vFoM 拓边界,TrackVLA++ 在特定任务上做深。基础模型上,从 Vicuna-7B 到 Qwen2-7B;视觉编码器上,从单 EVA-CLIP 到 DINOv2+SigLIP 双编码器;相机支持上,从单相机到1-8个相机的灵活配置;动作模型上,从 Anchor-based Diffusion 简化为 MLP;任务范围上,从单一的跟踪到多任务通用,再到跟踪专精。每一步升级都有明确的针对性。
TrackVLA 的 Anchor-based Diffusion、Na vFoM 的 TVI Tokens 和 BATS、TrackVLA++ 的 Polar-CoT 和 TIM——这些创新点环环相扣,共同构成了具身智能导航领域一幅完整的技术图谱。



