银河通用TrackVLA++ vs TrackVLA：具身智能技术测评

2026-06-22阅读 0热度 0

人工智能具身智能

要说银河通用（Galbot）在具身智能导航领域的布局，堪称一套“教科书级”组合拳——三篇论文层层递进，一步步将技术边界推向新高度。

2024年发布的 TrackVLA 打响了第一枪。它首次将视觉语言模型（VLM）扩展为视觉语言动作模型（VLA），专攻具身视觉跟踪。传统“先识别再规划”的串行思路，总是因为目标识别和轨迹规划各自为战，误差不断累积，最终导致偏离目标。TrackVLA 的精彩之处在于，它用端到端方式将这两个环节合二为一，从根本上解决了问题。

到了2025年初，Na vFoM 大幅拉高了格局。它不再局限于单一跟踪任务，而是瞄准“通用导航基础模型”，无论是视觉语言导航、目标搜索、主动跟踪，还是自动驾驶，都能应付，且不挑机器人平台。紧接着同年诞生的 TrackVLA++，则是在 Na vFoM 这个大底盘上，回头深耕跟踪这个细活。它引入了极坐标推理和目标记忆机制，专门应对遮挡和干扰场景——说白了，就是让机器人在复杂环境中也能死死咬住目标不跟丢。

从单任务到多任务，从隐式学习到显式推理，这三篇文章描绘了一条清晰的技术演进脉络。

1.1 技术迭代路线图

1.2 核心问题与解决方案演进

仔细梳理这三篇工作的脉络，它们其实是在逐一攻克具身导航领域三个层次的核心难题。

TrackVLA 要解的第一个结是：“识别”和“规划”如何不再打架？ 传统做法把目标检测和路径规划拆成两个独立模块，结果一个模块出错，错误就像滚雪球般传到下一个模块。TrackVLA 用端到端的VLA框架将它们捏在一起，并搭配 Anchor-based Diffusion 加速轨迹生成，为老问题开出了一剂新药。

Na vFoM 往前推进了一步：如何让一个模型同时应对不同的任务和不同的机器人？ 这里面门道不少：不同相机配置如何统一？长时间导航积累的历史帧怎么处理？它用 TVI Tokens 编码时间和视角信息，再用 BATS 采样策略动态控制计算预算，将这些难题一一化解。

TrackVLA++ 则把矛头对准了跟踪任务里最令人头疼的场景：目标被遮挡怎么办？周围有外观相似的干扰物怎么办？ 它设计了 Polar-CoT，让模型先显式地“思考”目标在哪个方向、距离多远，而不是在黑箱里瞎猜。再配上 TIM 记忆机制，目标消失时能记住它的样子，等目标重新出现时不会被干扰物带偏。

阶段	核心问题	解决方案	训练规模
TrackVLA	如何将识别与规划统一？	VLA框架 + Anchor-based Diffusion	1.7M样本
Na vFoM	如何支持多具身多任务？	TVI Tokens + BATS采样策略	8M样本
TrackVLA++	如何处理遮挡和干扰物？	Polar-CoT推理 + TIM记忆	2M样本

2. TrackVLA：具身视觉跟踪的VLA先驱

2.1 问题背景

具身视觉跟踪（EVT）的核心，是让机器人在真实三维环境中，根据一句自然语言指令（比如“跟着穿蓝衬衫的那个人”），持续锁定目标并跟上去。听起来不难？和二维视频里框出目标完全是两码事。机器人不仅要认出目标是谁，还得规划出自己该怎么走才能跟上。

传统做法通常拆成两步：先用目标检测或行人重识别模型定位目标在图像中的位置，再把结果扔给路径规划模块生成移动指令。问题恰恰出在这里——误差累积。检测模块一旦看走眼（比如把干扰物当成目标），规划模块就会基于错误信息做出错误决策；反过来，如果规划不当导致机器人走偏，下一帧的检测也会变得更困难。这是一个恶性循环。

TrackVLA 的核心贡献，就是提出了一个端到端的统一框架，让目标识别和轨迹规划在同一个模型里协同学习，从根子上掐断了误差累积的链条。

2.2 核心架构

TrackVLA 的整体架构遵循VLA的标准范式：视觉编码器、大语言模型骨干网络、动作预测头，三位一体。它的设计哲学很明确——让模型在理解视觉场景和语言指令的同时，直接输出机器人能执行的指令，而不是先算一堆中间表示再转交给下游模块。这种端到端的设计，使得识别能力和规划能力可以相互促进。下面拆开来看几个关键组件。

2.2.1 观察编码（Observation Encoding）

视觉编码方面，TrackVLA 选用了预训练的 EVA-CLIP。该模型经过大规模图文对比学习训练，语义理解能力很强。输入的图像序列经过处理后，每帧图像会被分割成若干patch，然后通过Transformer编码器生成视觉token。

但问题来了——如果所有历史帧的全部token一股脑儿全丢进大语言模型，序列长度会爆炸，计算成本根本吃不消。于是 TrackVLA 采用了双分辨率 Grid Pooling 策略：当前最新帧保留细粒度token用于精准识别，历史帧只保留粗粒度token提供大致上下文。背后的逻辑很直接：当前观察必须精细，历史观察知道个大概就行。

2.2.2 滑动窗口机制

实际跟踪任务中，机器人可能要持续跟踪目标好几分钟。如果不加限制地保留所有历史帧，即使经过Grid Pooling压缩，输入序列还是会越来越长，推理速度会越来越慢，最终无法满足实时性要求。

解决方案很干脆：固定大小的滑动窗口，窗口大小设为若干帧。每个时间步只保留最近的N帧，更早的信息直接丢弃。这样一来，推理时间就是恒定的，不管跟了多久，速度都不会变慢。窗口内的视觉token组织方式也有讲究：前面几帧用粗粒度表示，最新帧用细粒度表示，总token数量保持不变，效率很稳定。

2.2.3 大语言模型前向传播

视觉token和语言指令token拼接后，一起送入大语言模型骨干网络。TrackVLA 选的是 Vicuna-7B，一个基于LLaMA微调的开源对话模型，指令理解能力不错。

有意思的是，TrackVLA 设计了一个灵活的多任务输出机制：根据指令里是否包含特殊的 [Track] 标记，输出会走向不同分支。如果指令里有这个标记，模型进入跟踪模式，只做单步自回归，输出一个动作token交给后续模块生成轨迹；如果没有这个标记（比如“描述一下你正在跟着的那个人”），模型就进入对话模式，开始完整的自回归解码，逐token生成文本答案。这种设计让同一个模型既能跟踪，又能问答——“识别”与“规划”在这里真正统一了。

2.2.4 Anchor-based Diffusion Action Model（核心创新）

这是 TrackVLA 最亮眼的创新点。扩散模型在机器人控制领域表现不俗，但有个硬伤：需要很多步去噪，推理速度慢。TrackVLA 的团队想了个巧妙的办法：机器人轨迹的分布其实是有规律的，可以提前学一组“轨迹锚点”来覆盖常见的运动模式。

具体做法是：先从训练数据里收集所有轨迹样本，用K-means聚类成K个有代表性的轨迹锚点，每个锚点包含若干路点，表示机器人在未来几个时间步的目标位置和朝向。直行、左转、右转、原地旋转——这些常见模式都能被覆盖。

推理的时候，模型不再从纯高斯噪声开始去噪，而是从这些预定义的轨迹锚点出发。先给每个锚点加点噪声，然后把带噪锚点和LLM输出的条件特征一起丢进 DiT 网络，只跑2步DDIM去噪，就能输出去噪后的轨迹和对应的置信度分数。最后挑出置信度最高的轨迹作为最终输出。这套“锚点+少量去噪”的策略实现了5倍加速，推理帧率达到10 FPS，实时跟踪完全没问题。

2.3 训练数据与基准

TrackVLA 不只是提出了新架构，还顺手构建了具身视觉跟踪领域的第一个标准化基准测试集 EVT-Bench。基于 Habitat 仿真平台和 HM3D 室内场景数据集，包含三个难度递增的子任务。

第一个是单目标跟踪，场景里只有一个人，指令也简单（比如“跟着那个人”），主要测基础能力。第二个是干扰跟踪，场景里有好几个长相相似的人，指令里必须包含细粒度描述（比如“跟着穿蓝衬衫黑裤子的人”），考验细粒度识别和区分能力。第三个是歧义跟踪，最难的一个——场景里有好几个穿着完全一样的人（比如工装），指令还故意含糊，模型得靠目标的初始位置、运动轨迹等上下文信息来推断该跟谁。

子任务	英文缩写	难度	描述
单目标跟踪	STT	简单	"Follow the person" 等简单指令
干扰跟踪	DT	中等	存在多个干扰人物，需要细粒度识别
歧义跟踪	AT	困难	存在外观相同的干扰物，指令模糊

训练数据方面，TrackVLA 采用双任务联合训练，总共用了约1.7M个样本。其中一半来自 EVT-Bench 的跟踪训练集，另一半是开放世界识别数据，包括人物属性识别和通用VQA数据。这样的组合让模型既能跟踪目标，也能回答关于目标的开放式问题，实现了真正的多任务统一。

3. Na vFoM：跨具身跨任务的导航基础模型

3.1 问题背景

TrackVLA 发布之后，团队很快意识到一个更大的问题：现有的具身导航方法太碎片化了。任务层面，视觉语言导航、目标搜索、视觉跟踪、自动驾驶……每个任务都有自己的模型架构和训练流程，研究者得从头设计训练。平台层面，轮式机器人、四足机器人、人形机器人、无人机、自动驾驶汽车，因为传感器配置和运动学特性不同，也得各搞一套模型。这不仅浪费资源，也阻碍了知识在不同任务和平台之间的迁移。

Na vFoM 的目标很明确：搞一个统一的导航基础模型，能同时处理多种导航任务、支持多种机器人平台。要实现这个目标，得解决两个技术难题：第一，模型怎么理解来自不同相机配置的视觉输入（数量从1到8个不等，视角各异）；第二，长时间导航任务会产生大量历史帧，怎么在保持计算效率的同时不丢失关键信息。Na vFoM 用两个关键创新——TVI Tokens 和 BATS 采样策略——把这两个问题解决了。

3.2 核心架构

Na vFoM 的整体架构延续了VLA的基本范式，但在多个关键组件上做了重大升级。语言模型骨干从 Vicuna-7B 升级为更强大的 Qwen2-7B，视觉编码器也从单一的 EVA-CLIP 升级为 DINOv2 和 SigLIP 双编码器组合。DINOv2 擅长捕捉几何结构和空间关系，SigLIP 擅长理解语义内容，两者特征拼接后，模型同时具备了空间感知和语义理解能力。下面看四个核心组件。

3.2.1 多视角观察编码

Na vFoM 最显著的升级之一是支持1到8个相机的任意配置。不同机器人平台相机配置千差万别：轮式机器人通常只有一个前向相机，四足机器人可能前后左右四个，自动驾驶汽车则可能多达8个环视相机。Na vFoM 需要以统一的方式处理这些不同配置的输入。

对于每个相机在每个时间步捕获的图像，先用 DINOv2 和 SigLIP 双编码器分别提取特征，然后拼接。和 TrackVLA 类似，也采用 Grid Pooling 策略压缩：当前时间步的图像保留细粒度表示，历史时间步的只保留粗粒度表示。这样，就算有多个相机和较长的历史序列，输入token数量也能控制在合理范围内。

3.2.2 Temporal-Viewpoint Indicator (TVI) Tokens（核心创新1）

TVI Tokens 是 Na vFoM 最重要的技术创新之一。问题的本质在于：当来自不同相机、不同时间步的视觉token被拼接成一个长序列输入LLM时，模型根本分不清哪些token来自前向相机、哪些来自后向相机，也分不清哪些是当前帧、哪些是历史帧。这种歧义会严重影响模型对场景的空间和时序理解。

Na vFoM 的解决方案很优雅：给每组视觉token配一个“身份标识符”。在每个相机、每个时间步的视觉token序列前面，插入一个 TVI token，告诉LLM这组token来自“什么时间、什么方向”。TVI token的嵌入向量由三部分组成：可学习的基础嵌入、时间位置编码、方位角位置编码。根据任务类型不同，可以灵活组合——单帧图像QA只需要基础嵌入，视频QA需要加时间编码，导航任务则需要完整的三部分。

3.2.3 Budget-Aware Temporal Sampling (BATS)（核心创新2）

BATS 是 Na vFoM 的第二个核心创新。长时间导航任务中，历史帧管理是个大难题。如果以5 FPS的频率采集图像，一个10分钟的任务就会产生3000帧。就算经过Grid Pooling压缩，每帧仍需几个token，总数还是远远超出LLM的有效处理范围。

TrackVLA 用固定滑动窗口解决这个问题，但代价是丢弃所有超出窗口的历史信息。对于需要长程规划的导航任务（比如“回到刚才经过的厨房”），这种丢弃可能导致任务失败。Na vFoM 的设计思路来自人类记忆的“遗忘曲线”：越近的帧越重要，保留概率应该更高；越远的帧可以适度遗忘，但不能完全丢弃。基于这个思想，BATS 设计了一种指数衰减的采样策略，能够根据token预算自动调整采样率，确保无论任务持续多久、用多少个相机，推理时间都保持恒定。

3.2.4 轨迹预测头

动作预测方面，Na vFoM 选择了和 TrackVLA 不同的路线。TrackVLA 用 Anchor-based Diffusion，表达能力虽强但计算开销大。Na vFoM 的方案更直接：一个3层MLP，直接从LLM输出的动作token预测轨迹。背后逻辑是：当模型规模足够大、训练数据足够多时，LLM骨干网络本身已经有了强大的表征能力，不需要复杂的动作头来补。而且MLP的推理速度远快于扩散模型，有利于在多任务场景下保持统一的效率。

3.3 支持的任务与具身类型

Na vFoM 的设计目标很明确：“一个模型，多种任务，多种机器人”。任务层面，它支持四种主流的具身导航任务：视觉语言导航、目标搜索、主动视觉跟踪、自动驾驶，覆盖从室内到室外、从小型机器人到大型车辆的广泛应用场景。

机器人平台层面，它支持五种不同类型：轮式机器人、四足机器人、人形机器人、无人机、自动驾驶汽车。通过 TVI Tokens 统一编码不同相机配置，通过任务相关的缩放因子适配不同的动作空间，实现了对这些多样化平台的统一支持。

3.4 Na vFoM相比TrackVLA的改进

Na vFoM 在多个维度上对 TrackVLA 做了全面升级。感知能力上，从单相机扩展到1-8相机任意配置，引入 TVI Tokens 解决多视角歧义问题，获得360°环境感知能力。任务范围上，从单一的跟踪扩展到四种任务，真正实现了导航基础模型的愿景。模型架构上，升级了视觉编码器和LLM骨干，简化了动作预测头。历史管理上，用 BATS 动态采样替代固定滑动窗口，在控制计算预算的同时保留了更长时间范围的历史信息。训练规模也从1.7M扩大到12.7M，增长了约7.5倍。

维度	TrackVLA	Na vFoM
相机支持	单相机	1-8相机任意配置
任务范围	仅跟踪	VLN+搜索+跟踪+驾驶
具身类型	轮式机器人	多种机器人平台
视觉编码	EVA-CLIP	DINOv2 + SigLIP
动作模型	Anchor-based Diffusion	MLP (更简单高效)
历史处理	固定滑动窗口	BATS动态采样
视角编码	无	TVI Tokens
训练规模	1.7M	12.7M

4. TrackVLA++：推理与记忆增强的跟踪模型

4.1 问题背景

Na vFoM 虽然成功实现了跨任务、跨具身的通用导航能力，但团队发现，在具身视觉跟踪这个特定任务上，它仍然有两个棘手的短板，而这恰恰是跟踪任务区别于其他导航任务的核心挑战。

第一个是缺乏显式空间推理。 Na vFoM（以及 TrackVLA）的动作预测完全依赖LLM的隐式推理——模型在“黑箱”里完成从视觉输入到动作输出的映射，我们无法知道它是否真正“理解”了目标在哪个方向、距离多远。简单场景下没问题，但一旦出现多个外观相似的干扰物，模型就经常搞混，因为它没有明确的机制去“思考”和区分不同物体的空间位置。

第二个是长时遮挡导致目标丢失。 真实场景中，目标经常会被障碍物挡住（走进电梯、绕过柱子、被人群遮挡）。目标消失的时候，Na vFoM 只能靠历史帧里的运动趋势来猜，但随着 BATS 采样，历史帧里的目标特征会被逐渐“稀释”。更麻烦的是，当目标重新出现时，模型可能会被场景里长得像的干扰物“骗”过去，转而跟踪错误的目标。

TrackVLA++ 针对这两个问题，在 Na vFoM 的架构基础上引入了两个关键创新：Polar-CoT（极坐标思维链）让模型显式推理目标的空间位置，TIM（目标识别记忆）让模型在遮挡期间保持对目标身份的记忆。

4.2 核心架构

TrackVLA++ 的架构在 Na vFoM 基础上增加了两个关键模块：Polar-CoT 推理模块和 TIM 记忆模块。一个负责显式推理目标的空间位置，一个负责在遮挡期间保持目标身份记忆。值得一提的是，TrackVLA++ 专注于跟踪任务的性能提升，不追求 Na vFoM 那样的多任务通用性。

4.2.1 Polar Chain-of-Thought (Polar-CoT)（核心创新1）

Polar-CoT 让模型在预测动作之前，先显式地“思考”目标在哪个方向、距离多远。这种“先推理后行动”的设计灵感来自大语言模型中的思维链技术，但针对具身跟踪任务做了专门优化。

为什么不直接用传统的边界框预测？ 现有的VLA模型如果要显式定位目标，通常会预测目标在图像中的边界框坐标。但这种方法在多相机场景下问题不少：当目标出现在多个相机的视野中时，需要预测多个边界框，模型还得处理“哪个相机的哪个框对应目标”的歧义。此外，边界框预测需要输出至少4个token，计算开销不小。

Polar-CoT 的解法很巧妙：用极坐标来表示目标位置。 以机器人为中心建立极坐标系，目标的位置用方位角（目标在哪个方向）和距离（目标有多远）两个值就能唯一确定。这种表示天然适合多相机场景——无论目标出现在哪个相机的视野里，它的极坐标表示都是唯一的。

为了进一步提高效率，TrackVLA++ 把极坐标空间离散化为一个有限的词汇表。方位角分成60个等分（每个扇区6°），距离分成30个等分（从0.6m到5.0m），总共形成1800个扇区，每个扇区对应一个唯一的vocabulary token，再加一个特殊的 token表示目标不可见（被遮挡或超出视野），总共1801个推理token。这样一来，模型只需要预测一个token就能完成目标定位，计算开销降到了最低。

4.2.2 Target Identification Memory (TIM)（核心创新2）

TIM 解决的是目标被遮挡时如何保持身份记忆的问题。核心思想很直观：当模型确信看到目标时，更新记忆以跟踪目标的最新外观；当模型不确定或目标被遮挡时，冻结记忆，避免被干扰物污染。

TIM 的更新机制和 Polar-CoT 紧密配合。每个时间步，Polar-CoT 先预测目标的极坐标位置（或），同时输出一个置信度分数。这个分数基于推理token的预测概率分布计算：如果模型非常确定目标在某个位置，输出概率分布会很“尖锐”（熵低），置信度高；如果不确定，分布会比较“平坦”（熵高），置信度低。

这个设计的直观含义是：如果当前置信度高于历史平均水平，说明当前观察质量好，应该大幅更新记忆；反之则应该保守更新。当 Polar-CoT 预测（目标不可见）时，置信度被强制设为0，记忆完全冻结，避免被遮挡期间的无关信息污染。

4.2.3 完整推理流程

TrackVLA++ 的推理流程比 Na vFoM 复杂一些，因为需要执行两次LLM前向传播：第一次用于 Polar-CoT 推理，第二次用于动作预测。

步骤1：视觉编码。 和 Na vFoM 一样，用 DINOv2 和 SigLIP 双编码器处理当前帧图像，通过 Grid Pooling 得到细粒度视觉特征，同时通过 BATS 采样获取历史帧的粗粒度特征。

步骤2：特征投影。 将视觉特征和 TIM 记忆状态分别投影到LLM的嵌入空间。

步骤3：Polar-CoT 推理（第一次LLM前向）。 把记忆特征、视觉特征和语言指令特征拼接后输入LLM，执行单步自回归，输出推理token。将这个token解码为极坐标位置或，同时计算置信度。

步骤4：TIM 更新。 如果 Polar-CoT 预测了有效目标位置，从视觉特征中提取对应位置的视觉特征，根据置信度加权更新 TIM 记忆。如果预测为，记忆保持不变。

步骤5：动作预测（第二次LLM前向）。 将更新后的记忆特征、视觉特征、语言特征和 Polar-CoT 输出拼接后再次输入LLM，输出动作token，通过MLP动作头生成轨迹。

步骤6：执行。 机器人按照预测的轨迹移动，进入下一个时间步。

4.3 训练损失

TrackVLA++ 的训练采用多任务联合损失函数，同时优化轨迹预测、Polar-CoT 推理和语言理解三个目标。总损失函数包含三项：轨迹预测的均方误差损失、Polar-CoT 推理token的交叉熵损失、语言建模损失。

这种多任务损失设计有两个重要考量。推理损失的权重相对较小，因为推理任务本身不是最终目标，而是服务于更好的轨迹预测——权重过大可能导致模型过度关注定位精度而忽略动作规划质量。语言损失用于保持模型的语言理解能力，使其能处理开放式的目标描述和场景问答。

4.4 训练数据

TrackVLA++ 的训练数据基于 EVT-Bench 构建，但做了重要扩展以支持 Polar-CoT 监督学习。和 TrackVLA、Na vFoM 不同，TrackVLA++ 的跟踪数据需要包含每一帧的目标极坐标标注——目标相对于机器人的方位角和距离。这些标注通过仿真器的真值信息自动生成，不需要人工标注。总训练数据量约2M样本，虽然比 Na vFoM 的12.7M少，但针对跟踪任务做了专门优化。

训练数据包括四部分：约1M的 Polar-CoT 跟踪数据（核心，包含多视角图像序列、语言指令、极坐标标注和轨迹真值）；约294K的人物识别VQA数据，增强模型对人物外观特征的理解；约205K的图像QA数据，保持通用视觉理解能力；约501K的视频QA数据，增强对时序信息的理解。

数据类型	样本数	说明
Polar-CoT跟踪数据	1M	多视角，带极坐标标注
人物识别VQA	294K	SYNTH-PEDES
图像QA	205K	公开数据集
视频QA	501K	公开数据集
总计	2M	-

4.5 TrackVLA++相比Na vFoM的改进

TrackVLA++ 可以看作是 Na vFoM 在跟踪任务上的“专精版本”。它继承了 Na vFoM 的多相机支持和 BATS 采样策略，同时针对跟踪任务的特殊需求增加了两个关键模块。空间推理能力上，Na vFoM 依赖LLM的隐式推理，TrackVLA++ 通过 Polar-CoT 实现了显式的极坐标推理，模型必须先“思考”目标在哪里，再决定怎么移动。长期记忆能力上，Na vFoM 只靠 BATS 采样保留历史帧信息，没有专门的目标记忆机制，TrackVLA++ 的 TIM 模块则可以在目标可见时持续更新目标特征记忆，目标被遮挡时冻结记忆，有效防止被干扰物误导。

当然，这些改进是有代价的。由于需要执行两次LLM前向传播，TrackVLA++ 的推理速度约为4.8 FPS，略低于 Na vFoM 的约5 FPS。此外，它专注于跟踪任务，不支持 Na vFoM 的其他导航任务，是一个任务专用模型而非通用基础模型。

维度	Na vFoM	TrackVLA++
空间推理	隐式	Polar-CoT显式推理
长期记忆	无（仅滑动窗口）	TIM目标识别记忆
遮挡处理	容易丢失目标	置信度门控保护
干扰物区分	依赖隐式学习	推理引导特征提取
推理开销	1次LLM前向	2次LLM前向（CoT+Action）
任务范围	多任务通用	跟踪专精

5. 总结

回头看，三个模型的技术演进路径很清晰：TrackVLA 打基础，Na vFoM 拓边界，TrackVLA++ 在特定任务上做深。基础模型上，从 Vicuna-7B 到 Qwen2-7B；视觉编码器上，从单 EVA-CLIP 到 DINOv2+SigLIP 双编码器；相机支持上，从单相机到1-8个相机的灵活配置；动作模型上，从 Anchor-based Diffusion 简化为 MLP；任务范围上，从单一的跟踪到多任务通用，再到跟踪专精。每一步升级都有明确的针对性。

TrackVLA 的 Anchor-based Diffusion、Na vFoM 的 TVI Tokens 和 BATS、TrackVLA++ 的 Polar-CoT 和 TIM——这些创新点环环相扣，共同构成了具身智能导航领域一幅完整的技术图谱。