GAIR 2025深度对话:AI超越“视觉”理解世界的未来路径

2026-05-16阅读 0热度 0
南方科技大学

人工智能正从受控的实验室环境,迈向复杂多变的真实世界。感知,这一技术基石,也随之成为决定智能系统能力边界的关键。

无论是自动驾驶、智能终端,还是空间智能与具身智能,系统不仅需要解析信息,更要在动态的物理环境中持续捕获可靠信号。现实挑战已清晰表明,单一视觉感知的局限性日益凸显,这促使行业重新评估多模态感知在下一代智能架构中的核心地位。

在此背景下,声波、毫米波等无线感知技术进入主流视野。其独特路径在于:不依赖光学成像,而是通过对物理信号的建模与分析,让设备以低功耗、非侵入的方式理解环境与行为。尽管全面普及尚需时日,它们已被视为构建空间智能、实现自然交互的重要基石。

在GAIR 2025大会上,南方科技大学副教授张进深入分享了无线感知、多模态感知及面向空间智能的新型感知技术。长期扎根一线的她,关注焦点不仅是实验室的优异数据,更是技术在实际场景中的可行性与可信度。

会后,我们与张进教授展开对话。相较于宏大的技术叙事,她更倾向于从具体研究实践出发,剖析感知技术在落地过程中面临的实际约束与挑战。以下为对话实录。

一所大学的成长,与一个学者的判断

AI科技评论:您的学术背景扎实,从清华到港科大,最终选择加入南方科技大学,是基于哪些考量?

张进:这个选择并非简单的职业转换。核心在于,我亲历过一所年轻大学在正确制度下能释放的巨大能量。香港科技大学便是一例,成立二十余年即跻身世界一流,我有切身体会。

当时的南科大,正处于“必须成长”的关键期,并获得了深圳市的明确支持。校内流传一句话:“叫醒南科大学生的不是闹钟,而是中国高校改革的号角。”这并非口号,而是一种真实的创业状态——大家以创业心态在办学。

我加入时,学校连计算机系都尚未设立,一切从零开始。寻找系主任、确立学科方向、制定培养方案……我们逐步将计算机系建立起来。如今,系里每年培养约200名学生,十年累计近2000人。虽不敢言强大,但已形成完整稳定的体系,这对一所年轻大学而言实属不易。

AI科技评论:若将南科比拟为创业公司,您是否更像“创始人”角色?

张进:某种程度上确实如此。这种深度参与感,让你对学校产生截然不同的情感。学生培养、课程设计、学科布局……这些规则并非照搬,而是亲自参与制定。

我现任计算机系副系主任,负责研究生培养与科研,同时兼任致仁书院副院长。书院制是南科大特色。加之去年我们成功获批博士点,计算机系从2014年启动本科培养,到逐步完善研究生体系,这套框架均由我们亲手搭建。

正因经历了从无到有的全过程,这份责任感与情感联结尤为深刻。

AI科技评论:除了学校,深圳这座城市对您的研究有何意义?

张进:许多人提及深圳,首先想到“资金充裕”。但深圳的优势远不止于此。美国、硅谷同样资金雄厚,但其硬件制造往往仍需回归深圳。

深圳真正的优势在于,它同时拥有极其完整的产业链、高密度的人才储备以及真实旺盛的市场需求。这三者叠加产生的效应,在全球范围内都属罕见。

港科大许多毕业生最终选择来深圳创业或投身科研。我们致力于开展能真正改变世界、并与产业深度结合的研究。而深圳正处于高速成长期。在此阶段入场,而非待格局既定后再进入,其想象与施展空间自然更为广阔。

从通信到无线感知的「自然递进」

AI科技评论:您的研究方向跨度不小,最初从何处起步?

张进:我的研究方向确实几经演变。硕士在清华研究3G/4G无线移动通信系统。赴港科大读博后转入计算机系,方向转向无线网络,聚焦WiFi多基站间的协同部署问题。

随后涉足认知无线电,即让通信系统具备智能,能自动判断频段占用并进行动态切换。博士毕业后,我开始尝试将无线信号应用于智慧医疗场景。

起初仅用无线网络传输医疗数据,但很快意识到无线信号本身即可用于感知人体健康状态。这一发现成为重要的研究转折点。

AI科技评论:在智慧医疗领域,具体进行过哪些探索?

张进:博士毕业后,我在港科大有一段创业经历,与深圳市人民医院、第二人民医院深入合作。我们共同开发了移动健康监测系统,包括管理数万名患者的网络医院系统,也曾涉足脑卒中筛查等工作。

如今回顾,我们起步极早。当时Fitbit、Jawbone等智能手环尚未出现。也正因太早,技术条件、产业环境与市场认知均未成熟,许多尝试最终未能实现规模化落地。

这段经历让我深刻认识到,一些前沿且周期漫长的探索,或许更适合回到学术界进行持续深入的耕耘。

AI科技评论:后来如何系统性地转向感知方向?

张进:回归学术界后,我并未放弃对健康与环境感知的关注,转而从“非视觉”角度重新审视该问题。2014年加入南科大后,开始系统研究毫米波雷达;至2018、2019年左右,逐步引入声波感知,同时深化毫米波方向研究。

从技术路径看,这是一个自然递进:从早期信号处理,逐步引入机器学习、深度学习,直至当前的大模型。我们方向具备一个天然优势:团队既有扎实的信号处理背景,又拥有计算机与人工智能知识储备,因而能更有效地将物理信号与AI模型结合。

让设备「看不见」却「懂得更多」

AI科技评论:能否通俗解释声波感知与毫米波感知?

张进:声波感知非常直观。可将手机、电脑或耳机想象为蝙蝠:设备扬声器发出人耳听不到的声波,声波接触环境或人体后反射,再由麦克风接收。通过分析反射信号,即可感知环境、检测呼吸心跳、识别手势,甚至判断设备间相对位置。

其最大优势在于无需额外专用传感器,成本低、体积小,但感知能力却不容小觑。

毫米波感知,大众最熟悉的或许是汽车前方的毫米波雷达,用于车辆检测。但在生活场景中,它同样能监测室内是否有人、人数、具体位置、心跳状态,甚至是否发生跌倒。同时,它“看不见”具体形象,在隐私保护方面比摄像头更具优势。

AI科技评论:您认为目前大众对感知技术最大的误解是什么?

张进:感知技术本身或许无需被大众“理解”。最佳的技术,往往是让人察觉不到其存在的技术。

正如真无线耳机,戴上即连便是最佳体验;若需用户反复操作才能连接,体验便大打折扣。感知技术的核心目标,是让设备在获得环境理解能力后,能自然而流畅地完成交互,而非总需用户告知设备“当前发生了什么”。

AI科技评论:在推动AI与科学发展的进程中,感知技术扮演着怎样不可替代的角色?

张进:当前热议“空间智能”,但仅靠视觉、语音与图像远远不够。图像难以精确获取距离与真实空间结构,而要真正理解并与物理世界交互,就必须引入物理感知模态。

事实上,人类最早发展的智能并非语言智能,而是空间智能。智能机器若要成为真正的智能体,也必须具备对物理空间的理解与交互能力。此时,声波、毫米波及其他新型感知模态便变得不可或缺。

当感知真正进入现实世界

AI科技评论:感知结果是否足够可信?是否存在被攻击的风险?

张进:这正是我们近两三年重点关注的课题。尤其毫米波雷达已大量应用于汽车,对安全性要求极高。一旦感知系统被攻击,可能导致车辆“看不见”真实障碍物,或“看见”不存在的障碍,从而引发严重事故。

因此,我们不能天真假设所有人皆为“好人”。感知系统必须在信号设计、模型结构乃至整体系统层面,都具备抵御攻击的能力,方能真正称得上“可信”。

AI科技评论:您的研究方向跨度如此之大,如何看待科研过程中的“得”与“失”?

张进:科研的本质或许在于好奇心。若每日仅重复已知事务,意义不大。研究方向会随世界变化与社会需求而调整,但科研内核不变:发现问题、理解前沿、解决他人未曾解决的问题。

我常对学生说,求职时不必只盯着公司要求的技术是否与你硕博研究完全对口。真正重要的是,你是否具备了系统分析问题、构建解决方案的能力。一名成功的博士,理应拥有快速进入任何新领域的学习与适应能力。

AI科技评论:您如何看待“女生不适合学工科”这种说法?

张进:我完全不认同此观点。我不认为女生的逻辑能力天生逊于男生,很多时候,是因被反复暗示“你不行”,才导致了不自信。

事实上,女生学习计算机乃至硬核理工科,反而具备诸多独特优势:稀缺性高、沟通与共情能力强、更为细致、抗挫折能力与韧性也往往更佳。在需要紧密协作的大型系统性研究中,这些素质至关重要。

我培养过许多优秀的女学生,其中包括南科大首位获得美国高校教职的本科生。因此,女生完全有能力,也非常适合选择计算机与硬核理工科方向。

AI科技评论:如果请您描绘未来三年内的感知世界,会是何种图景?

张进:感知领域的未来注定高度多样化甚至碎片化。很难有一种技术能“通吃”所有问题。不同场景、设备约束与需求,将对应不同的技术组合方案。

但万变不离其宗,最终目标一致:技术必须真正落地于产品,让产品足够智能,使得用户无需额外输入信息,设备便能理解物理世界。只要实现此目标,无论采用何种技术手段,皆是优秀的感知技术。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策