AAAI 2026:VLA模型物理传感器攻击鲁棒性增强研究
AI安全仍处于技术早期的快车道,这意味着每次新突破都可能在行业里掀起波澜。今天这期内容聚焦AAAI 2026的一篇关键论文——Phantom Menace: Exploring and Enhancing the Robustness of VLA Models Against Physical Sensor Attacks。简单说,就是看看那些依赖视觉-语言-动作(VLA)模型的机器人,在现实世界中面对激光、电磁、超声等物理攻击时,到底有多脆弱。
这篇论文的独特之处在于,它第一次系统性地从物理传感器层面切入,而不是停留在数字域里的图像扰动或文本注入。更关键的是,它提出了一个“Real-Sim-Real”闭环框架,让仿真评测和真实机器人验证能相互印证,而不是各自为战。
【论文题目】Phantom Menace: Exploring and Enhancing the Robustness of VLA Models Against Physical Sensor Attacks
【论文链接】https://arxiv.org/abs/2511.10008
【代码链接】https://github.com/ZJUshine/Phantom-Menace
研究背景
Vision-Language-Action(VLA)模型正推动机器人系统迈向端到端多模态决策。它们将摄像头、麦克风采集的感知信息直接映射为物理动作,在复杂操作和开放环境中表现抢眼,已逐步进入真实部署场景。
但问题也出在这里:VLA模型对传感器输入的依赖程度极高,一旦摄像头或麦克风被别有用心的物理信号干扰——比如一束激光、一阵电磁波、或者一段超声——模型本身即使没被直接攻击,其决策链条也可能被系统性带偏,轻则任务失败,重则机械臂乱撞、物体坠落。
现有研究大多聚焦数字域扰动,比如给图像加个对抗噪声、在文本里藏个恶意指令。但真实世界里的攻击者,哪用得着那么复杂?他们只需要一个激光笔、一台超声发生器,就能从传感器层面直接动手。可惜,这类物理攻击的真实实验难以规模化,而纯仿真又无法准确反映物理效应——这个矛盾一直让VLA的安全边界悬而未决。
为了弥合这个鸿沟,本文提出了Real-Sim-Real框架。核心思路是:先把真实物理传感器攻击进行高保真建模,然后在仿真环境里大规模评测鲁棒性,最后把关键攻击参数回迁到真实机器人系统验证——形成一个“真实→仿真→真实”的闭环(如图1所示)。基于这个框架,作者还探索了对抗训练作为防御手段,在训练阶段引入物理攻击数据,显著提升模型对分布外物理扰动的适应能力,同时基本不损伤干净环境下的性能。
动机
随着VLA模型逐步走向真实世界部署,安全评估却还停留在数字域输入扰动的理想化假设里——这显然跟不上现实威胁的演进。相比直接操控模型输入,攻击者更容易通过激光、电磁、超声等物理信号,从传感器层间接影响模型感知和决策。这个攻击面在现有研究中几乎被完全忽视。
另一方面,真实物理攻击难以规模化评测,纯仿真又难以准确刻画物理效应。结果就是:我们根本不知道不同物理攻击、不同模型架构、不同任务设置,到底会怎样影响VLA的端到端行为。本文的动机很明确——打通真实物理攻击与可扩展评测之间的那堵墙,系统揭示物理传感器攻击的真实威胁,为VLA的安全部署提供靠谱的评测基准和防御手段。
本文总共设计了六个针对摄像头的攻击和两个针对麦克风的攻击,如图2所示。
图2:实现并模拟八种传感器攻击,包括六个目标摄像机和两个目标麦克风,涵盖激光、光线、声学和电磁信号
方法
1) 引入
威胁场景:本文考虑真实部署中的VLA机器人系统,通过摄像头与麦克风感知环境并执行动作,广泛应用于制造、医疗等场景。攻击者可通过向传感器注入激光、电磁或超声等物理信号实施攻击。
攻击目标:干扰摄像头或麦克风输入,诱导VLA系统产生异常或定向错误行为,导致任务失败甚至安全隐患。
攻击能力:攻击者仅具备对传感器的物理信号注入能力,无法直接操控模型输入或进行任何数字域攻击(如噪声注入、压缩或模糊)。
模型知识:攻击者仅拥有对VLA模型的黑盒访问权限,不了解模型结构、训练数据或参数,也不了解具体使用的传感器类型与感知算法。
2) 针对麦克风的攻击
针对麦克风的攻击利用其物理感知与信号处理链路中的非线性特性,在不产生可听声音的前提反赌入恶意音频信息。整体上,麦克风接收到的音频信号可建模为原始语音信号与恶意信号的叠加:
由于恶意信号位于人类不可感知的频段或以物理方式注入,系统难以在感知层面区分其来源。本文主要研究两类典型攻击:语音拒绝服务攻击(Voice DoS)与语音欺骗攻击(Voice Spoofing)。
语音拒绝服务攻击:通过向麦克风注入高强度超声信号,使其传感器或放大电路进入饱和状态,破坏正常语音采集。攻击信号人耳听不到,但会显著降低麦克风输出的信噪比,导致语音识别系统无法正确解析用户指令。实现上,攻击者在数字域生成高能量噪声,用超声扬声器注入麦克风,记录响应后与原始语音叠加,用于仿真与评测。
语音欺骗攻击:目标不是破坏语音输入,而是注入精确的恶意语义内容。攻击者通过调制激光或超声信号,将构造好的语音指令直接注入麦克风,实现对原始语音的附加、替换或细粒度操控。实现时,先用TTS生成恶意语音,再通过物理设备注入并记录,最后作为后缀叠加到原始语音信号中。
这两类攻击分别从可用性破坏与语义操控两个维度揭示了麦克风作为VLA关键输入通道的安全风险——攻击者仅通过物理信号注入,就足以显著影响系统的端到端行为。
3) 针对摄像机的攻击
针对摄像机的攻击旨在通过干扰进入镜头的光信号或利用传感器与成像算法的脆弱性,操纵模型感知到的视觉输入。整体上,摄像机捕获的图像可建模为环境光与恶意光信号的叠加,或通过特定攻击变换函数对环境光进行畸变:
由于这些攻击直接作用于成像过程或底层硬件链路,模型往往难以在感知阶段识别异常。本文重点研究了六类具有代表性的攻击:
1. 激光致盲攻击:高功率激光直接照射CMOS传感器,使其饱和,丧失对环境光变化的感知能力。通过记录真实攻击模式,以不同权重叠加到原始图像模拟不同强度。
2. 光投影攻击:利用投影设备将伪造图像投射到环境中或直接射入镜头,注入虚假视觉信息。通过记录真实投影图案,以不同位置和强度叠加到原始图像。
3. 激光色条攻击:利用CMOS摄像机的滚动快门特性,通过调制激光在图像中注入彩色条纹,破坏局部或整体视觉结构。效果通过调整波长、RGB比例及强度控制。
4. 电磁色条与截断攻击:向图像传输接口(如MIPI CSI-2总线)注入电磁干扰,导致图像传输错误。部分图像行被丢弃或错误解码形成彩色条纹,若缓冲区地址被破坏还会造成图像截断。通过控制条纹数量、位置及截断比例模拟攻击强度。
5. 超声模糊攻击:针对配备防抖模块的摄像机,注入超声信号诱发IMU共振,误导防抖算法触发不必要的运动补偿,导致图像模糊。分为线性、径向与旋转三类,通过调节模糊幅度模拟不同强度。
这些摄像攻击从光学干扰、硬件接口破坏与算法误导等多个层面系统性破坏视觉输入质量。由于VLA模型高度依赖视觉感知进行决策,这类攻击能在不接触模型的情况下对其端到端行为产生显著甚至灾难性的影响。
实验效果
实验设置
数据集和模拟器:实验在Libero视觉-语言机器人模拟器中进行,数据集覆盖空间配置变化、物体识别与操控、目标变化以及长时序规划等多种任务类型。
目标模型:评测选取四个代表性VLA模型:OpenVLA、OpenVLA-OFT、pi0和pi0-fast,涵盖不同结构与训练范式。所有模型均在Libero数据集上微调。
评测指标:任务成功率(Task Success Rate, TSR),即成功完成任务的回合数占总回合数的比例。
攻击参数:设置弱、中、强三种攻击强度,为不同攻击配置对应参数。语音DoS使用空指令,语音欺骗附加固定恶意后缀,真实实验直接采用仿真中搜索到的参数(表1)。
真实世界实验:基于Franka Panda机械臂,配备全局摄像头、腕部摄像头及麦克风,语音指令通过Whisper ASR转文本(图3)。通过遥操作采集一小时真实数据对模型微调,适配真实抓取与放置任务。
模型评测与对抗训练:推理在NVIDIA 4090 GPU,微调与对抗训练使用NVIDIA H800 GPU并采用LoRA。对抗训练引入30%的攻击数据,攻击类型与强度在多种摄像攻击和不同强度范围内随机采样。
图3:真实世界实验设计
在模拟器上的鲁棒性评估
表1:不同攻击强度的攻击参数
表2:模拟器中VLA模型在各种传感器攻击下的鲁棒性
1)物理传感器攻击对VLA有效:无攻击条件下,四种模型在Libero上表现强劲,在Libero-Spatial与Libero-Object等任务中TSR可接近或超过90%。引入攻击后,所有模型性能显著下降,退化幅度随攻击类型、强度和任务复杂度而变化。在强攻击或长时序任务(Libero-Long)中,多个模型成功率接近崩溃,甚至降至接近0。这说明VLA模型对传感器扰动高度敏感,现实部署的可靠性远低于理想实验环境。
2)不同攻击影响各异:激光致盲(LB)、电磁截断(ET)和超声模糊(UB)直接破坏关键视觉特征,在中高强度下显著削弱目标定位与物体识别,导致严重任务失败甚至危险行为。光投影(LP)、激光色条(LCS)和电磁色条(ECS)主要通过干扰注意力而非摧毁核心视觉信息,影响相对较小。语音DoS的效果高度依赖任务:在需依赖语言区分目标的场景中完全失效,而在可从视觉上下文推断指令的任务中影响有限。语音欺骗的攻击成功率与模型的语义理解能力正相关,采用LLM骨干的OpenVLA与OpenVLA-OFT更易受指令注入影响,其中OpenVLA-OFT由于强化语言调制机制,退化最显著。
3)不同VLA模型鲁棒性差异明显:OpenVLA普遍敏感,中高强度攻击下性能显著下降。OpenVLA-OFT通过多摄像头融合与本体感知增强了整体稳健性,但在语音欺骗攻击下几乎完全失效。pi0与pi0-fast在视觉攻击下表现出更强的抗扰能力,可能依赖于多视觉传感架构和隐式记忆。
在真实世界上的鲁棒性
真实机器人实验中,各模型在无攻击时具备稳定的基线性能。按照仿真搜索到的参数注入物理攻击后,结果(表3)与仿真评测高度一致,验证了Real-Sim-Real框架的有效性。如图4所示,这些攻击不仅导致任务失败,还引发多种现实风险行为:抓取时物体意外坠落、机械臂或夹爪与环境碰撞、抓取错误目标、机械臂出现无序或剧烈运动。物理传感器攻击在真实部署中具有直接且可观察的危害性。
表3:VLA模型在现实世界中的鲁棒性
图4:现实世界的攻击后果
对抗训练结果
如表4所示,引入对抗训练后,模型在物理传感器攻击下的鲁棒性显著提升,干净数据性能仅下降约3%。与表2无防御结果相比,中等强度攻击下各模型TSR普遍提升,其中OpenVLA提升最为显著,最高可达约60%。这表明基于物理攻击数据的对抗训练能够在保持基础能力的同时,有效增强对分布外物理扰动的适应性。
表4:对抗训练之后VLA模型的鲁棒性
结论与展望
本文首次从端到端系统层面系统揭示了VLA模型在真实物理世界中的安全边界。激光、电磁干扰与超声等物理信号,可以不接触模型本身,就严重破坏其端到端行为。为弥合真实物理攻击规模化难、仿真评测可信度低的矛盾,Real-Sim-Real框架提供了闭环流程。
实验表明,在无攻击条件下表现稳健的VLA模型,面对传感器扰动往往出现显著性能退化,强攻击或长时序任务中甚至灾难性失效。真实实验进一步验证了仿真结论并揭示了多种现实风险行为。而基于物理攻击数据的对抗训练,能在轻微性能损失下大幅提升鲁棒性。
这项工作为VLA模型的安全评测与可靠部署提供了关键参考——在具身智能走向现实之前,必须把物理安全性真正纳入评测与训练流程。这不仅是技术问题,更是行业共识需要加速形成的地方。









