视频空间重建与坐标映射:位置智能核心技术解析

2026-06-12阅读 0热度 0
无人机

从实际需求到视频空间定位的起源

一次无人机河道巡检中,用户盯着回传画面追问:“那辆正在作业的工程车,距离刚才看到的水文站究竟有多远?”现场工程师测算:无人机飞行约四分钟,按巡航速度换算航程约3-4公里,结合工程车距当前参照点约500米,最终只给出“不到5公里”的模糊结论。

此后类似疑问反复出现。一个核心思考逐渐成形:能否直接通过视频画面本身完成目标定位与距离测量?

不久后,在电力场站这一完全不同场景中,同样的需求再次被提出。

变电站尤其高压、特高压区域内,人员作业面临极高安全风险。每一项操作都必须严格遵循“作业票”划定的隔离区域与流程,但事故仍时有发生。为实时、精准掌握人员位置与轨迹,防止误入危险区域,用户几乎测试了所有已知方案。

最直接的思路是为人员佩戴定位设备。但高压强磁环境下,曾有定位装置自燃的先例,该路径只能放弃。于是问题回归原点:能否仅利用现场已有的摄像机,不依赖任何额外辅助设备,实现人员定位和行为监测?巧合的是,这一次用户与我们的技术团队几乎同时想到同一个方向——基于视频孪生引擎的位置智能。

正是这次“不期而遇”催生了后续完整方案体系。

位置智能(LI)技术原理解析

先给出定义:位置智能(Location Intelligence,简称LI)是以3D视频孪生引擎为基础、面向真实物理世界的一系列空间计算服务。它不是单一功能点,而是一套完整的能力集合。为了便于理解,我们继续用前面两个案例展开。

两个案例的核心需求都指向同一个感知入口——视频。但这存在天然矛盾:视频本质为连续二维图像,缺乏深度信息。如何从中提取三维位置?幸运的是,智汇云舟团队在自主可控的3D引擎领域多年深耕,有办法向引擎索取深度、位置与距离数据。

与特斯拉用多摄像头构建车外3D世界的技术路线不同,我们采用“视频+3D模型”的混合方案。原因在于:我们的应用场景几乎没有两个以上摄像机重叠覆盖的区域,但恰恰能获取极其精准的3D模型。

通过AI能力,我们实现了摄像机的自动标定。简言之,即解决如何将摄像机的像素坐标精确投影到3D模型上,建立像素坐标与空间坐标的映射关系。这样一来,画面中任意像素都能对应唯一的经度、纬度、高度坐标。当人员出现在画面时,AI检测算法锁定其像素位置,再经由LI位置智能服务,即可计算该人员的空间坐标、朝向和移动速度。基于独立画面的视觉定位与测量由此实现,上述案例中的问题迎刃而解。

需求爆发并非偶然,而是厚积薄发的必然结果

坦率地说,位置智能并非我们最初的选择。

早期核心是3D视频可视化平台,逻辑为“视频+可视化”。为承载更大容量的视频3D可视化、提供更友好的算法支持,团队十年前自主研发了“孪舟引擎”。在数字孪生业界普遍痴迷“颜值”的初始阶段,我们顶住市场压力,未盲目跟风卷视觉效果,而是始终聚焦:把面向视频的引擎做扎实,把面向视频的重建算法做透。

打造一款面向视频孪生且自主可控的3D引擎,业界无任何参考范式。如何将视频接入、解码、渲染、AI计算等服务整合进引擎各层级,完全是摸着石头过河。历史上从未有3D引擎将视频推到如此核心的位置。

视频空间重建算法本身也经历多次迭代。部分算法可视化效果出色但计算不便,另一些计算效率高但可视化欠佳。直至引入预训练大模型,所有维度才达到一个出色的平衡点。此时距离LI位置智能仅剩最后一步。回看积累过程——无论是技术攻关还是沉淀的数据资产,都因大模型的激活而释放出应有价值。

位置智能只是起点,空间智能已箭在弦上

如果说此前平台主要功能是“为人服务”——通过可视化界面展示信息,那么位置智能则首次将服务对象转向AI与智能体。它不提供界面,而是输出空间计算结果,生成结构化数据。这类数据更适合AI读取和理解,而非人类。从某种程度上,这代表了云舟产品哲学的一次重大升级。

从可视到可计算,从位置智能到空间智能,从服务于人到服务于AI——这是一条清晰的演进主线。位置智能回答“目标在哪里”,而空间智能要解决的是“空间理解”本身。依托孪舟引擎这一自主可控的3D基础,位置智能仅是整部空间智能巨著的开篇序章。

打造AI友好的空间智能产品,我们已经迈出了关键步伐。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策