主动感知:机器人在遮挡世界的信息获取 | ICRA 2026
机器人不能只会“看见”。
2026年6月4日,在ICRA 2026的“机器人感知与空间人工智能”主题演讲上,波恩大学Maren Bennewitz教授一针见血地指出了真实机器人部署中一个根本性的困境:机器人面对的世界,是杂乱、持续变化且只能被部分观测的。如果它仅仅依靠被动地去“看”,那它永远无法真正理解这个环境。
Bennewitz的核心判断非常明确:机器人要想真正走进家庭、农业和服务场景,就必须把感知、预测、先验知识和动作规划整合到一个闭环系统中。它不能只是“看一眼”,而是要主动地移动视角、推开遮挡物、抓取物体——用最少的动作,去获取最多的信息。
为了说明这一点,她总结了三大典型场景:
第一类,是货架或桌面这类遮挡环境。机器人利用带有不确定性的语义地图,去判断哪些物体值得被移动,以便看清被遮挡的区域。
第二类,是家庭环境中的物体搜索。机器人借助3D场景图、大语言模型提供的语义常识、几何约束和物体重定位规律,可以在不重新探索整个房间的情况下,快速找到目标物体。
第三类,是农业监测与果实采摘。机器人利用上一轮的环境地图先验、非刚性配准技术和叶片形变模型,来规划更高效、更精准的观测和操作动作。
这场演讲的真正洞察在于:主动感知,绝不是简单的“多看几眼”。它的本质,是把“看哪里、动什么、何时停止”这个决策过程,变成一个信息增益最大化的问题。对机器人来说,世界不是一张静态照片,而是一组可以通过行动逐步揭开的信念分布。
这里有几个关键信息值得记住:
1. 真实环境的核心难点不是“没图像”,而是“不确定性和遮挡”。机器人必须知道自己“不知道”什么。
2. 主动感知的价值,在于把动作本身变成信息采集工具。换一个视角、推开一个物体、移动一片叶子,其目的都是为了降低地图和语义上的不确定性。
3. 先验知识不是取代感知,而是帮机器人更聪明地选择“下一步”。大语言模型提供语义常识,几何模型过滤掉不可能的位置,重定位模型则学习人类移动物体的习惯。
4. 在农业机器人领域,时间维度同样关键。上一轮的完整重建,可以作为本轮观测规划的强有力先验,让机器人在重复监测中避免从零开始。
5. 对于采摘这类高价值任务,机器人需要从“识别果实”走向“估计可采摘性”,并理解叶片、视角和目标之间的多重遮挡关系。
总的来看,Bennewitz其实是在回答一个非常现实的问题:当机器人无法一次看清世界时,它该如何通过一系列聪明的行动,把未知变成已知?她的答案是:用信念表示不确定的世界,用先验约束搜索的边界,用动作主动去降低不确定性。
以下是AI科技评论对Maren Bennewitz教授在ICRA 2026大会演讲的实录整理,内容基于英文现场转写,在不改变原意的基础上进行了中文编译。
为了看见遮挡物,机器人必须学会“动手”
正如所有从业者都了解的,机器人运行在杂乱、变化且只能部分观测的环境中。因此,单纯的被动观察远远不够。为了完成任务,机器人必须主动去感知环境。这意味着它必须在行动中整合感知、预测、先验信息和动作,主动获取信息,以提升对环境的理解。
今天,我们将围绕杂乱场景和隐藏物体,探讨机器人如何高效地增强它对世界的知识。更具体地说,就是机器人如何利用先验知识和试探性动作,在尽量少的步骤内完成感知和操作。
先看一个典型的场景。一个货架前,有几个盒子遮挡了后方空间的视线。问题是,机器人怎样才能看见盒子后面有什么?也就是说,它如何推理前方物体背后可能存在什么?
在这个例子里,仅仅改变视角是不够的。机器人必须动手移动场景中的一些物体,才能看清其后被遮挡的空间。这正是我们关注的核心问题。
我们采用一种带有不确定性的度量语义地图表示法。这种表示既能推理场景中的所有物体,也能预测操作动作及其约束带来的影响。我们学习了一个模型,用来预测这个地图表示会如何随着动作结果而演变。也就是说,我们可以预测场景因为视角变化、推动或抓取而可能发生的变化,并将其作为动作如何改变世界的先验知识。
基于这个学习到的模型,我们可以推断不同动作的效果。因此,机器人会选择那些能最大化降低环境表示不确定性的最佳动作。比如,在下面这个案例里,机器人会先向左推动一个盒子,然后抓起另一个盒子放到一侧,从而看清之前被遮挡的空间,并识别出其内部的物体。
我们学习了一个动作条件网络,用于预测占据、语义以及相应的不确定性。这些网络可以预测,在机器人执行某个动作后,其信念状态会如何变化,并预测对应的不确定性。随后,我们会选择那些能降低不确定性、或能提供更高预期信息增益的动作。我们会在接下来两个动作的序列上进行优化,选择能最大化信息增益、最小化不确定性的那个序列。
这里展示的是我们的目标函数。对于单纯的视角变化,我们考虑预期信息增益;对于抓取、推动物体以清除后方遮挡空间的动作,我们还会额外考虑动作成本。然后,我们评估一步测试动作带来的信息增益,并在两个动作的序列上进行优化,以最大化信息量、降低不确定性。
这是我们与合作者共同开发的方法。接下来可以看到系统实际运行的过程。界面左侧是带相机的机器人实验平台,右侧显示的是机器人已经识别出的物体。一开始,机器人已经识别了一些物体,而它的任务是识别场景中的全部物体。
使用我们的方法,机器人会审视世界中的不确定性地图,选择处理场景中所有物体的最佳动作序列。它会移动一些物体,抓取一些物体,把它们放到一侧,从而观察被遮挡的后方空间。最终,机器人识别出了场景中的所有物体。当然,机器人只会移除那些为了覆盖整个空间而必须移除的物体,并且会在任务完成后把它们放回原位。
可以看到,机器人能够维护关于环境中物体的长期信念。因此,即使存在持续遮挡,它也知道物体在货架上的准确位置。
基于3D场景图的按需物体搜索
接下来要探讨的问题是:机器人如何在更大的场景中搜索物体?以完整的家庭环境为例,物体会频繁移动、被重新放置,甚至可能被隐藏在家具内部。我们如何让机器人在用户需要某个物体时进行搜索,而不是每次都重新探索整个环境?
我们的解决思路是,把环境重建为一个3D场景图。这个图包含房间、家具、隔层等层级结构。利用这个图,机器人可以推理被搜索物体可能位于哪里,并把被搜索物体视为动态节点。
在搜索物体时,我们进行空间信念推理,利用这个图表示来推断物体的可能位置。例如,机器人的任务是寻找一个物体。环境中有三个可能放置的位置:货架、书桌和咖啡桌。
第一步,我们使用来自大语言模型的语义先验,初始化关于搜索物体位置的信念。在这个例子中,机器人一开始认为最可能的位置是货架,其次是书桌和咖啡桌。
当然,我们还会考虑几何信息。我们会预测目标物体是否能够被放置在某个位置上。如果物体太大,无法放进某个隔层,那么我们就会降低它在该位置的概率,相应地提高其他位置的概率。
最后,一个关键的步骤是,我们会基于重定位动态来更新信念。也就是说,机器人会学习环境中物体的重定位转移概率。
整个流程分为三步。首先,大语言模型根据场景图,为我们预测候选放置位置。它的输入是场景图,输出是候选位置,例如家具节点或隔层节点,然后我们将这些排序转换成关于位置的先验概率。
其次,我们根据目标物体的尺寸,过滤掉几何上不可行的位置。再次,我们基于观察到的稀疏数据来更新重定位转移概率,让机器人学习人类的移动习惯,并随着时间的推移不断调整搜索策略。
我们将这些因素综合考虑到全局定位中。由于被搜索物体可能在未被观察到的情况下发生位置变化,我们也允许一定概率扩散到环境中的其他区域。最后,我们进行代价感知的动作选择,在物体可访问性、预期动作成本以及对人的影响之间寻找平衡,由机器人选择最有价值的检查位置。
我们在家庭环境数据上评估了这种方法。场景中的物体会发生重定位。评估时,我们给定了固定的搜索预算,并测试机器人能否找到目标物体。如果不使用任何先验信息,只在可能搜索位置上使用均匀先验,那么成功率会很低。
加入语义先验和几何先验后,搜索成功率有明显提升;进一步加入学习到的重定位转移概率后,在固定时间预算下,成功率还能进一步提高。因此,该方法能够支持高效的按需搜索,而无需重新探索整个环境,因为机器人会随时间维护长期信念。
让农业机器人少走冤枉路
接下来,我们面对的是持续变化的环境。一个非常典型的例子就是农业环境:植物会持续生长,外观也会随时间推移而改变。我们考虑的是园艺或农业应用中的作物重复监测任务。这种监测会被反复执行,例如每周两次,其目的是通过监测生长变化来估算产量。
当然,我们不可能每次都从头开始工作。核心思路是,将上一时间点学习到的模型,用来指导当前时间点的视角规划和三维重建。当作物生长时,它们会带来严重的遮挡,因此利用之前积累的先验知识至关重要。
我们的平台会在作物行之间移动,并搭载固定的相机阵列。随着平台穿过环境,它可以部分地重建作物行。但由于作物行数众多,加上存在遮挡,当前获取的数据中难免会留下空洞。于是,我们的想法是:利用上一时间步的模型作为先验,进行高效的视角规划,使移动平台或相机去填补当前数据中的空洞。
具体来说,我们会对上一时间步的重建模型进行非刚性配准。上一个时间步的模型更完整,而当前时间步只有部分重建。我们把上一次的模型配准到当前的部分重建上,也就是将两个点云以非刚性的方式对齐。
之后,我们执行一个优化过程。现在我们有了一个近似表面,就可以使用集合覆盖优化:在估计出的表面上采样目标点,然后选择能够覆盖这些目标点的视角。随后,我们执行覆盖优化,并用旅行商问题算法计算出一条近似最优的路径。
在真实的温室数据中,首先可以看到移动平台静态相机获得的部分重建。由于遮挡,当前数据里出现了空洞。接着,我们把上一轮数据对齐到当前的部分数据,基于这个近似表面执行视角规划,再规划路径并在平台上执行,从而收集覆盖植物的新数据。
最终,我们得到了一条高效路径,它覆盖了所有表面,也填补了当前数据中的空洞。这个更新后的模型,随后就可以用于下一个时间步的监测任务。
把叶片也纳入行动规划
刚刚我们看到,先验地图可以帮助重复监测中的视角规划变得更高效。但像甜椒或番茄这样的果实,仍然可能会被部分遮挡。机器人不能仅仅依靠“寻找”它们就完成任务。有时,移动叶片是必要的,这样才能可靠地估计果实的形状以及它是否可以被采摘。
在这项工作中,我们使用了叶片形变模型来评估候选动作、评估可能的视角,并预测叶片背后的可见性。通过这种方式,我们可以揭示被遮挡的区域,并更准确地估计果实的尺寸。
到目前为止,我们假设遮挡的叶片是已知的,也就是说机器人清楚应该操作哪片叶子才能看见后方的部分。而我们目前正在进行的工作,是学习一种用于遮挡推理的表示。我们的目标是学习一种统一的图表示,用于建模可见性关系和遮挡关系。利用这个图,机器人可以识别出哪片叶子从哪个方向遮挡了目标,以及应该按什么顺序来处理这些遮挡。
例如,我们会估计观察方向。在一个例子中,根据这个图,我们得到了果实和叶片的排序,并结合观察方向判断出某片叶子的遮挡排名最高。因此我们知道,这片叶子需要被推到一侧,才能显露果实并估计它的形状。
刚才介绍的这些技术,可以用于估计果实的可采摘状态,然后进一步执行实际的采摘动作。这里展示的是,机器人能够使用一个包含相机、切割器和操作器的三臂系统,可靠地识别作物并完成相关操作。
最后做一下总结。机器人在很多场景中,都运行在杂乱、变化且只能部分观测的环境里。因此,机器人需要同时规划观察动作和操作动作,用于物体搜索、地图构建和环境重建。
我展示了先验知识如何引导感知,以及感知和操作动作的规划。因此,先验知识是实现高效主动感知的关键。
我还展示了信念传播如何支持对遮挡物体以及操作动作效果的推理。通过主动选择那些能降低不确定性、提升可观测性并处理遮挡的动作,我们能够增强机器人的能力,让它更好地获取知识、理解环境。
正如我最后提到的,下一步我们将通过学习并构建可见性图以及遮挡关系,来进一步推理遮挡问题;同时,也会继续研究生成式方法以及在服务机器人中的应用。
Q&A 问答环节
听众提问:移动叶片这个动作看起来代价比较高。为了估计果实的可采摘性,到底需要实际移动多少叶片?能不能依赖关于果实外形和可采摘性的先验信息,即使我们没有完整看到果实?
Maren Bennewitz:谢谢你的问题。首先,我们会使用形状补全方法。比如当我们只部分观察到甜椒时,可以使用一些方法来估计并补全它的整体形状。
然后,我们对叶片使用形变模型。我们使用一种形变图来估计叶片可以被如何操作、应该往哪个方向移动。之后,我们再估计被遮挡的区域是否能够被显露出来。这个过程目前当然仍有成本,但最终我们能获得关于甜椒更完整的信息。
听众提问:所以你们确实需要移除遮挡物,才能估计它是否可采摘吗?
Maren Bennewitz:你可能指的是单纯估计可采摘状态。对于可采摘状态本身,也许并不总是需要移除叶片;但我们这里讨论的是移除叶片来估计形状、估计合适的操作过程。因此,对于其他设定,你也许不一定需要真的移除叶片,但可以基于这些信息做出相应的决策。
听众提问:谢谢你的报告。我很欣赏这种基于信念的方法。我想问的是,当物体被完全遮挡时,物体本身会出现在你的信念先验中吗?如果目标物体完全被遮挡,这种基于信念的方法如何适应?
Maren Bennewitz:一开始,机器人完全不知道后面有什么。确实如此。因此,这个区域会有很高的不确定性,因为我们不了解它。于是,机器人会推理应该移动哪些物体才能看见后面。也就是说,我们会给这个区域的占据和语义估计赋予较高的不确定性。
听众提问:所以信念是关于区域的,而不是关于具体物体的?
Maren Bennewitz:正是如此。我们使用的是度量语义地图表示,信念是在这个度量语义表示上的。基于这个表示,物体随后才会被识别出来。谢谢。










