主动感知：机器人在遮挡世界的信息获取 | ICRA 2026

2026-06-06阅读 0热度 0

机器人

机器人不能只会“看见”。

2026年6月4日，在ICRA 2026的“机器人感知与空间人工智能”主题演讲上，波恩大学Maren Bennewitz教授一针见血地指出了真实机器人部署中一个根本性的困境：机器人面对的世界，是杂乱、持续变化且只能被部分观测的。如果它仅仅依靠被动地去“看”，那它永远无法真正理解这个环境。

Bennewitz的核心判断非常明确：机器人要想真正走进家庭、农业和服务场景，就必须把感知、预测、先验知识和动作规划整合到一个闭环系统中。它不能只是“看一眼”，而是要主动地移动视角、推开遮挡物、抓取物体——用最少的动作，去获取最多的信息。

为了说明这一点，她总结了三大典型场景：

第一类，是货架或桌面这类遮挡环境。机器人利用带有不确定性的语义地图，去判断哪些物体值得被移动，以便看清被遮挡的区域。

第二类，是家庭环境中的物体搜索。机器人借助3D场景图、大语言模型提供的语义常识、几何约束和物体重定位规律，可以在不重新探索整个房间的情况下，快速找到目标物体。

第三类，是农业监测与果实采摘。机器人利用上一轮的环境地图先验、非刚性配准技术和叶片形变模型，来规划更高效、更精准的观测和操作动作。

这场演讲的真正洞察在于：主动感知，绝不是简单的“多看几眼”。它的本质，是把“看哪里、动什么、何时停止”这个决策过程，变成一个信息增益最大化的问题。对机器人来说，世界不是一张静态照片，而是一组可以通过行动逐步揭开的信念分布。

这里有几个关键信息值得记住：

1. 真实环境的核心难点不是“没图像”，而是“不确定性和遮挡”。机器人必须知道自己“不知道”什么。
2. 主动感知的价值，在于把动作本身变成信息采集工具。换一个视角、推开一个物体、移动一片叶子，其目的都是为了降低地图和语义上的不确定性。
3. 先验知识不是取代感知，而是帮机器人更聪明地选择“下一步”。大语言模型提供语义常识，几何模型过滤掉不可能的位置，重定位模型则学习人类移动物体的习惯。
4. 在农业机器人领域，时间维度同样关键。上一轮的完整重建，可以作为本轮观测规划的强有力先验，让机器人在重复监测中避免从零开始。
5. 对于采摘这类高价值任务，机器人需要从“识别果实”走向“估计可采摘性”，并理解叶片、视角和目标之间的多重遮挡关系。

总的来看，Bennewitz其实是在回答一个非常现实的问题：当机器人无法一次看清世界时，它该如何通过一系列聪明的行动，把未知变成已知？她的答案是：用信念表示不确定的世界，用先验约束搜索的边界，用动作主动去降低不确定性。

以下是AI科技评论对Maren Bennewitz教授在ICRA 2026大会演讲的实录整理，内容基于英文现场转写，在不改变原意的基础上进行了中文编译。

为了看见遮挡物，机器人必须学会“动手”

正如所有从业者都了解的，机器人运行在杂乱、变化且只能部分观测的环境中。因此，单纯的被动观察远远不够。为了完成任务，机器人必须主动去感知环境。这意味着它必须在行动中整合感知、预测、先验信息和动作，主动获取信息，以提升对环境的理解。

今天，我们将围绕杂乱场景和隐藏物体，探讨机器人如何高效地增强它对世界的知识。更具体地说，就是机器人如何利用先验知识和试探性动作，在尽量少的步骤内完成感知和操作。

先看一个典型的场景。一个货架前，有几个盒子遮挡了后方空间的视线。问题是，机器人怎样才能看见盒子后面有什么？也就是说，它如何推理前方物体背后可能存在什么？

在这个例子里，仅仅改变视角是不够的。机器人必须动手移动场景中的一些物体，才能看清其后被遮挡的空间。这正是我们关注的核心问题。

我们采用一种带有不确定性的度量语义地图表示法。这种表示既能推理场景中的所有物体，也能预测操作动作及其约束带来的影响。我们学习了一个模型，用来预测这个地图表示会如何随着动作结果而演变。也就是说，我们可以预测场景因为视角变化、推动或抓取而可能发生的变化，并将其作为动作如何改变世界的先验知识。

基于这个学习到的模型，我们可以推断不同动作的效果。因此，机器人会选择那些能最大化降低环境表示不确定性的最佳动作。比如，在下面这个案例里，机器人会先向左推动一个盒子，然后抓起另一个盒子放到一侧，从而看清之前被遮挡的空间，并识别出其内部的物体。

我们学习了一个动作条件网络，用于预测占据、语义以及相应的不确定性。这些网络可以预测，在机器人执行某个动作后，其信念状态会如何变化，并预测对应的不确定性。随后，我们会选择那些能降低不确定性、或能提供更高预期信息增益的动作。我们会在接下来两个动作的序列上进行优化，选择能最大化信息增益、最小化不确定性的那个序列。

这里展示的是我们的目标函数。对于单纯的视角变化，我们考虑预期信息增益；对于抓取、推动物体以清除后方遮挡空间的动作，我们还会额外考虑动作成本。然后，我们评估一步测试动作带来的信息增益，并在两个动作的序列上进行优化，以最大化信息量、降低不确定性。

这是我们与合作者共同开发的方法。接下来可以看到系统实际运行的过程。界面左侧是带相机的机器人实验平台，右侧显示的是机器人已经识别出的物体。一开始，机器人已经识别了一些物体，而它的任务是识别场景中的全部物体。

使用我们的方法，机器人会审视世界中的不确定性地图，选择处理场景中所有物体的最佳动作序列。它会移动一些物体，抓取一些物体，把它们放到一侧，从而观察被遮挡的后方空间。最终，机器人识别出了场景中的所有物体。当然，机器人只会移除那些为了覆盖整个空间而必须移除的物体，并且会在任务完成后把它们放回原位。

可以看到，机器人能够维护关于环境中物体的长期信念。因此，即使存在持续遮挡，它也知道物体在货架上的准确位置。

基于3D场景图的按需物体搜索

接下来要探讨的问题是：机器人如何在更大的场景中搜索物体？以完整的家庭环境为例，物体会频繁移动、被重新放置，甚至可能被隐藏在家具内部。我们如何让机器人在用户需要某个物体时进行搜索，而不是每次都重新探索整个环境？

我们的解决思路是，把环境重建为一个3D场景图。这个图包含房间、家具、隔层等层级结构。利用这个图，机器人可以推理被搜索物体可能位于哪里，并把被搜索物体视为动态节点。

在搜索物体时，我们进行空间信念推理，利用这个图表示来推断物体的可能位置。例如，机器人的任务是寻找一个物体。环境中有三个可能放置的位置：货架、书桌和咖啡桌。

第一步，我们使用来自大语言模型的语义先验，初始化关于搜索物体位置的信念。在这个例子中，机器人一开始认为最可能的位置是货架，其次是书桌和咖啡桌。

当然，我们还会考虑几何信息。我们会预测目标物体是否能够被放置在某个位置上。如果物体太大，无法放进某个隔层，那么我们就会降低它在该位置的概率，相应地提高其他位置的概率。

最后，一个关键的步骤是，我们会基于重定位动态来更新信念。也就是说，机器人会学习环境中物体的重定位转移概率。

整个流程分为三步。首先，大语言模型根据场景图，为我们预测候选放置位置。它的输入是场景图，输出是候选位置，例如家具节点或隔层节点，然后我们将这些排序转换成关于位置的先验概率。

其次，我们根据目标物体的尺寸，过滤掉几何上不可行的位置。再次，我们基于观察到的稀疏数据来更新重定位转移概率，让机器人学习人类的移动习惯，并随着时间的推移不断调整搜索策略。

我们将这些因素综合考虑到全局定位中。由于被搜索物体可能在未被观察到的情况下发生位置变化，我们也允许一定概率扩散到环境中的其他区域。最后，我们进行代价感知的动作选择，在物体可访问性、预期动作成本以及对人的影响之间寻找平衡，由机器人选择最有价值的检查位置。

我们在家庭环境数据上评估了这种方法。场景中的物体会发生重定位。评估时，我们给定了固定的搜索预算，并测试机器人能否找到目标物体。如果不使用任何先验信息，只在可能搜索位置上使用均匀先验，那么成功率会很低。

加入语义先验和几何先验后，搜索成功率有明显提升；进一步加入学习到的重定位转移概率后，在固定时间预算下，成功率还能进一步提高。因此，该方法能够支持高效的按需搜索，而无需重新探索整个环境，因为机器人会随时间维护长期信念。

让农业机器人少走冤枉路

接下来，我们面对的是持续变化的环境。一个非常典型的例子就是农业环境：植物会持续生长，外观也会随时间推移而改变。我们考虑的是园艺或农业应用中的作物重复监测任务。这种监测会被反复执行，例如每周两次，其目的是通过监测生长变化来估算产量。

当然，我们不可能每次都从头开始工作。核心思路是，将上一时间点学习到的模型，用来指导当前时间点的视角规划和三维重建。当作物生长时，它们会带来严重的遮挡，因此利用之前积累的先验知识至关重要。

我们的平台会在作物行之间移动，并搭载固定的相机阵列。随着平台穿过环境，它可以部分地重建作物行。但由于作物行数众多，加上存在遮挡，当前获取的数据中难免会留下空洞。于是，我们的想法是：利用上一时间步的模型作为先验，进行高效的视角规划，使移动平台或相机去填补当前数据中的空洞。

具体来说，我们会对上一时间步的重建模型进行非刚性配准。上一个时间步的模型更完整，而当前时间步只有部分重建。我们把上一次的模型配准到当前的部分重建上，也就是将两个点云以非刚性的方式对齐。

之后，我们执行一个优化过程。现在我们有了一个近似表面，就可以使用集合覆盖优化：在估计出的表面上采样目标点，然后选择能够覆盖这些目标点的视角。随后，我们执行覆盖优化，并用旅行商问题算法计算出一条近似最优的路径。

在真实的温室数据中，首先可以看到移动平台静态相机获得的部分重建。由于遮挡，当前数据里出现了空洞。接着，我们把上一轮数据对齐到当前的部分数据，基于这个近似表面执行视角规划，再规划路径并在平台上执行，从而收集覆盖植物的新数据。

最终，我们得到了一条高效路径，它覆盖了所有表面，也填补了当前数据中的空洞。这个更新后的模型，随后就可以用于下一个时间步的监测任务。

把叶片也纳入行动规划

刚刚我们看到，先验地图可以帮助重复监测中的视角规划变得更高效。但像甜椒或番茄这样的果实，仍然可能会被部分遮挡。机器人不能仅仅依靠“寻找”它们就完成任务。有时，移动叶片是必要的，这样才能可靠地估计果实的形状以及它是否可以被采摘。

在这项工作中，我们使用了叶片形变模型来评估候选动作、评估可能的视角，并预测叶片背后的可见性。通过这种方式，我们可以揭示被遮挡的区域，并更准确地估计果实的尺寸。

到目前为止，我们假设遮挡的叶片是已知的，也就是说机器人清楚应该操作哪片叶子才能看见后方的部分。而我们目前正在进行的工作，是学习一种用于遮挡推理的表示。我们的目标是学习一种统一的图表示，用于建模可见性关系和遮挡关系。利用这个图，机器人可以识别出哪片叶子从哪个方向遮挡了目标，以及应该按什么顺序来处理这些遮挡。

例如，我们会估计观察方向。在一个例子中，根据这个图，我们得到了果实和叶片的排序，并结合观察方向判断出某片叶子的遮挡排名最高。因此我们知道，这片叶子需要被推到一侧，才能显露果实并估计它的形状。

刚才介绍的这些技术，可以用于估计果实的可采摘状态，然后进一步执行实际的采摘动作。这里展示的是，机器人能够使用一个包含相机、切割器和操作器的三臂系统，可靠地识别作物并完成相关操作。

最后做一下总结。机器人在很多场景中，都运行在杂乱、变化且只能部分观测的环境里。因此，机器人需要同时规划观察动作和操作动作，用于物体搜索、地图构建和环境重建。

我展示了先验知识如何引导感知，以及感知和操作动作的规划。因此，先验知识是实现高效主动感知的关键。

我还展示了信念传播如何支持对遮挡物体以及操作动作效果的推理。通过主动选择那些能降低不确定性、提升可观测性并处理遮挡的动作，我们能够增强机器人的能力，让它更好地获取知识、理解环境。

正如我最后提到的，下一步我们将通过学习并构建可见性图以及遮挡关系，来进一步推理遮挡问题；同时，也会继续研究生成式方法以及在服务机器人中的应用。

Q&A 问答环节

听众提问：移动叶片这个动作看起来代价比较高。为了估计果实的可采摘性，到底需要实际移动多少叶片？能不能依赖关于果实外形和可采摘性的先验信息，即使我们没有完整看到果实？

Maren Bennewitz：谢谢你的问题。首先，我们会使用形状补全方法。比如当我们只部分观察到甜椒时，可以使用一些方法来估计并补全它的整体形状。

然后，我们对叶片使用形变模型。我们使用一种形变图来估计叶片可以被如何操作、应该往哪个方向移动。之后，我们再估计被遮挡的区域是否能够被显露出来。这个过程目前当然仍有成本，但最终我们能获得关于甜椒更完整的信息。

听众提问：所以你们确实需要移除遮挡物，才能估计它是否可采摘吗？

Maren Bennewitz：你可能指的是单纯估计可采摘状态。对于可采摘状态本身，也许并不总是需要移除叶片；但我们这里讨论的是移除叶片来估计形状、估计合适的操作过程。因此，对于其他设定，你也许不一定需要真的移除叶片，但可以基于这些信息做出相应的决策。

听众提问：谢谢你的报告。我很欣赏这种基于信念的方法。我想问的是，当物体被完全遮挡时，物体本身会出现在你的信念先验中吗？如果目标物体完全被遮挡，这种基于信念的方法如何适应？

Maren Bennewitz：一开始，机器人完全不知道后面有什么。确实如此。因此，这个区域会有很高的不确定性，因为我们不了解它。于是，机器人会推理应该移动哪些物体才能看见后面。也就是说，我们会给这个区域的占据和语义估计赋予较高的不确定性。

听众提问：所以信念是关于区域的，而不是关于具体物体的？

Maren Bennewitz：正是如此。我们使用的是度量语义地图表示，信念是在这个度量语义表示上的。基于这个表示，物体随后才会被识别出来。谢谢。

主动感知：机器人在遮挡世界的信息获取 | ICRA 2026

为了看见遮挡物，机器人必须学会“动手”

基于3D场景图的按需物体搜索

让农业机器人少走冤枉路

把叶片也纳入行动规划

Q&A 问答环节

相关阅读

最新教程

最新资讯