视频空间重建与坐标映射：位置智能核心技术解析

2026-06-12阅读 0热度 0

无人机

从实际需求到视频空间定位的起源

一次无人机河道巡检中，用户盯着回传画面追问：“那辆正在作业的工程车，距离刚才看到的水文站究竟有多远？”现场工程师测算：无人机飞行约四分钟，按巡航速度换算航程约3-4公里，结合工程车距当前参照点约500米，最终只给出“不到5公里”的模糊结论。

此后类似疑问反复出现。一个核心思考逐渐成形：能否直接通过视频画面本身完成目标定位与距离测量？

不久后，在电力场站这一完全不同场景中，同样的需求再次被提出。

变电站尤其高压、特高压区域内，人员作业面临极高安全风险。每一项操作都必须严格遵循“作业票”划定的隔离区域与流程，但事故仍时有发生。为实时、精准掌握人员位置与轨迹，防止误入危险区域，用户几乎测试了所有已知方案。

最直接的思路是为人员佩戴定位设备。但高压强磁环境下，曾有定位装置自燃的先例，该路径只能放弃。于是问题回归原点：能否仅利用现场已有的摄像机，不依赖任何额外辅助设备，实现人员定位和行为监测？巧合的是，这一次用户与我们的技术团队几乎同时想到同一个方向——基于视频孪生引擎的位置智能。

正是这次“不期而遇”催生了后续完整方案体系。

位置智能（LI）技术原理解析

先给出定义：位置智能（Location Intelligence，简称LI）是以3D视频孪生引擎为基础、面向真实物理世界的一系列空间计算服务。它不是单一功能点，而是一套完整的能力集合。为了便于理解，我们继续用前面两个案例展开。

两个案例的核心需求都指向同一个感知入口——视频。但这存在天然矛盾：视频本质为连续二维图像，缺乏深度信息。如何从中提取三维位置？幸运的是，智汇云舟团队在自主可控的3D引擎领域多年深耕，有办法向引擎索取深度、位置与距离数据。

与特斯拉用多摄像头构建车外3D世界的技术路线不同，我们采用“视频+3D模型”的混合方案。原因在于：我们的应用场景几乎没有两个以上摄像机重叠覆盖的区域，但恰恰能获取极其精准的3D模型。

通过AI能力，我们实现了摄像机的自动标定。简言之，即解决如何将摄像机的像素坐标精确投影到3D模型上，建立像素坐标与空间坐标的映射关系。这样一来，画面中任意像素都能对应唯一的经度、纬度、高度坐标。当人员出现在画面时，AI检测算法锁定其像素位置，再经由LI位置智能服务，即可计算该人员的空间坐标、朝向和移动速度。基于独立画面的视觉定位与测量由此实现，上述案例中的问题迎刃而解。

需求爆发并非偶然，而是厚积薄发的必然结果

坦率地说，位置智能并非我们最初的选择。

早期核心是3D视频可视化平台，逻辑为“视频+可视化”。为承载更大容量的视频3D可视化、提供更友好的算法支持，团队十年前自主研发了“孪舟引擎”。在数字孪生业界普遍痴迷“颜值”的初始阶段，我们顶住市场压力，未盲目跟风卷视觉效果，而是始终聚焦：把面向视频的引擎做扎实，把面向视频的重建算法做透。

打造一款面向视频孪生且自主可控的3D引擎，业界无任何参考范式。如何将视频接入、解码、渲染、AI计算等服务整合进引擎各层级，完全是摸着石头过河。历史上从未有3D引擎将视频推到如此核心的位置。

视频空间重建算法本身也经历多次迭代。部分算法可视化效果出色但计算不便，另一些计算效率高但可视化欠佳。直至引入预训练大模型，所有维度才达到一个出色的平衡点。此时距离LI位置智能仅剩最后一步。回看积累过程——无论是技术攻关还是沉淀的数据资产，都因大模型的激活而释放出应有价值。

位置智能只是起点，空间智能已箭在弦上

如果说此前平台主要功能是“为人服务”——通过可视化界面展示信息，那么位置智能则首次将服务对象转向AI与智能体。它不提供界面，而是输出空间计算结果，生成结构化数据。这类数据更适合AI读取和理解，而非人类。从某种程度上，这代表了云舟产品哲学的一次重大升级。

从可视到可计算，从位置智能到空间智能，从服务于人到服务于AI——这是一条清晰的演进主线。位置智能回答“目标在哪里”，而空间智能要解决的是“空间理解”本身。依托孪舟引擎这一自主可控的3D基础，位置智能仅是整部空间智能巨著的开篇序章。

打造AI友好的空间智能产品，我们已经迈出了关键步伐。

视频空间重建与坐标映射：位置智能核心技术解析

从实际需求到视频空间定位的起源

位置智能（LI）技术原理解析

需求爆发并非偶然，而是厚积薄发的必然结果

位置智能只是起点，空间智能已箭在弦上

相关阅读

最新教程

最新资讯