对话于非院士:AI领域的香农定理何在?权威解读与未来展望

2026-05-15阅读 0热度 0
定义智能

一项植物实验揭示了超越传统认知的生存策略:当菟丝子被移植到不同营养状况的山楂树上时,它表现出对更健壮宿主的选择性偏好。这远非简单的被动寄生,而是指向了植物界可能存在的复杂能力——从经验中学习、个体间交流乃至对环境进行评估。这些能力,曾一度被认为是人类智能的独有特征。

加拿大工程院院士于非教授在其著作《智能简史——从大爆炸到元宇宙》中,正以此类现象为切入点,重新审视“智能”的边界。智能,或许并非人类文明的专属品。

在近期的一次深度对话中,于非院士并未停留在讨论人工智能从感知到认知的技术演进,而是直指领域发展的根本瓶颈:智能本身缺乏一个严谨、可量化的科学定义。他明确指出:“定义是科学的基石。若仅停留在文字描述,无法进行数学定义与量化,核心问题将永远悬而未决。”

如今,在《智能简史》中,于非教授正尝试为“智能”构建一个理性的数学框架,旨在开辟一条量化智能的全新路径。

《智能简史》:探寻“智能”的科学定义

“智能”长期被视作人类的特权。于非教授提出了一个颠覆性的视角:智能可能是宇宙中一种普遍的自然现象。追溯至宇宙大爆炸后物质分布不均的初始状态,差异与梯度便已诞生。智能,在本质上可被理解为系统为恢复稳定、消除梯度而进行的调节过程。这一过程贯穿物理、化学、生物世界,并延伸至人类文明与机器算法,共同编织成一部宏大的智能演化史。

随着智能应用渗透至智慧城市、复杂网络等宏大场景,单体智能的局限性日益暴露。一个根本性问题亟待回答:智能的本质究竟是什么?

作为信息与人工智能领域的权威学者,于非院士长期被“智能定义”的模糊性所困扰。他认为,正是定义的缺失,导致人工智能至今仍主要是一门依赖试错的工程学科,而非建立在坚实公理上的科学。无论是预训练模型、知识图谱还是卷积神经网络,其设计灵感大多源于对生物认知的模仿。“这类似于空气动力学诞生之前,人们只能参照鸟类和蜻蜓的外形来制造飞行器。”他如此比喻。

为此,于非展开了跨学科的溯源研究,将智能概念的源头推演至宇宙起源。“探究越深入,时间线就越遥远,直至大爆炸时刻。从那一刻起,物理世界形成,各种智能现象也随之涌现。”

1969年,比利时科学家伊利亚·普里高津提出的“耗散结构”理论指出,一个远离平衡态的开放系统,通过与外界交换物质与能量,能在临界点上自发地从无序走向有序。这一过程揭示了化学世界中“秩序源于混沌”的基本法则。

在生物学领域,麻省理工学院杰里米·英格兰教授的“耗散适应”理论进一步阐明,系统通过消耗能量来缓解不平衡。在一定条件下,分子系统会自发组织,通过化学反应加速能量耗散与熵增。

核心在于,在能量梯度存在的条件下,结构倾向于以最快、最省力的方式行动,以消除不平衡、达成稳定——生命或许正诞生于此。这为我们理解从物理、化学到生物世界的智能起源,提供了一个统一的视角。

当人类科技步入新纪元,我们必须在更广阔的时空范畴内思考智能的高级形态。然而,一个能被称之为“科学”的智能定义,依然缺席。

历史提供了参照。1948年,克劳德·香农借鉴热力学概念,用“信息熵”的数学公式成功量化了信息,奠定了信息时代的基石。那么,智能时代呢?尽管符号主义、联结主义、行为主义等学派争论不休,尽管我们掌控质量、能量、信息的能力已空前强大,但作为对信息更高层次的抽象,“智能”仍缺乏坚实的数学定义。

于非在书中指出,智能如同岩石滚落、冰雪消融,是宇宙中普遍存在的自然现象。它并不神秘,而是系统在趋向稳定过程中显现出的一种属性。这为用同一套逻辑理解世界运行提供了可能。

与此同时,如何量化智能,成为将其推向科学殿堂的关键。

1950年,艾伦·图灵提出了著名的“图灵测试”,为机器思考能力提供了判断标准,并严格定义了“可计算性”。然而,图灵测试本身并未提供智能的量化度量。

针对这一根本问题,于非在《智能简史》中探索智能本质,借鉴能量与信息的量化思想,开创性地提出了一个衡量相对智能程度的数学公式:

dL = ∂S/∂R

其中,dL 代表智能的变化量,S 是当前秩序与预期秩序的相似度,R 是广义的参数(如时间、数据量等)。智能的变化与多个参数相关,因此在数学上表现为一个多元函数的偏导。

这与热力学熵的概念异曲同工。智能不是一个绝对量,而是一个相对量,描述的是变化程度。智能可以被定义为衡量一个学习过程在时间维度上“耗散”了多少信息的尺度。正如热力学熵测量特定温度下能量扩散的程度,智能度量的则是信息梯度被消除的速率与效率。

回顾人类科技史,质量、能量、信息、智能这几个关键概念的演进顺序耐人寻味。认知革命后,人类获得了技术发明能力,以前所未有的效率参与到宇宙趋于稳定的宏大进程中。人类的协作,本质上形成了有序的社会经济结构,促进了物质、能量、信息乃至智能的流动与耗散。

从网络范式演化的历史中,我们可以观察到更高级别的互联带来了更高层次的抽象。

当人类能轻易获取物质(质量)后,关注点转向获取速度(能量)。当能量易于得时,焦点又转向其扩散程度(熵)。如今,在信息触手可及的时代,我们自然开始追问:信息被“消化”、被“耗散”的量是多少?智能,在本质上或许正是对信息耗散程度的量化。

目前,于非已初步完成了对智能数学化定义的探索,为量化智能指明了一条新路径。

超越单体:集体学习与区块链的赋能

在去年的对话中,于非院士指出,从智能驾驶等多体协同场景来看,要实现真正的智能网络,“集体学习”将是关键范式。“然而,集体学习目前还没有真正开始。”他补充道。

在文明进程中,人类间传递的、书籍中记载的,不仅是信息,更是智能——用专业术语说,即数据与知识的区别。对智能的清晰定义为多个体间的“智能交换”提供了知识基础,从而能进一步实现集体学习。

未来的智能发展,必然与集体学习和网络协同紧密相连。

当前大多数人工智能研究聚焦于单体智能的训练,严重依赖大量预定义的本地数据集。随着互联网数据爆炸式增长,这种中心化的AI架构受限于本地算力与存储,其模型的泛化能力面临瓶颈。此外,许多现实场景要么过于复杂难以建模,要么处于动态变化之中。

相比之下,人类学习所需的数据量更少,适应新环境也更加灵活。集体学习是人类在生物圈中取得主导地位的决定性特征,而当前的AI系统很难做到这一点。通过互联智能,实现分布式智能、智能存储与智能共享,能显著拉近AI与人类智能的距离,提高训练效率,更好地模拟真实世界。

以自动驾驶为例,联网自动驾驶汽车(CA V)涉及车间通信与车路协同,正是集体学习的具体实践。

在于非看来,车间通信和车路协同是保障交通安全的核心手段。“大多数车祸源于无法预知其他车辆正在或即将做什么。”通过开发让车辆感知环境并与其他交通参与者通信的技术,可以有效预防事故。

单车智能研发的难点在于场景适应性。目前,自动驾驶汽车在规范场景下(如天气良好、道路标准、行人守规)表现尚可,但现实中由成千上万条道路、不同天气、驾驶习惯、突发状况构成的复杂路况,是单一模型难以覆盖的。

“在这种情况下,车与车、车与路之间的通讯就变得至关重要。而这种通讯交换不应仅限于数据,理想情况下,应该是‘智能’的交换。”于非解释道。

集体学习的另一关键权衡要素,是个体性的保持。于非指出:“保证通信的可靠性与安全性至关重要,而这通常需要在安全与效率之间做出权衡。”

随着连接性与自动化水平的提高,系统也更容易遭受恶意攻击,威胁单车乃至整个CA V系统的安全。CA V是一个复杂系统,其无线通信、传感器、定位系统、计算单元等各个环节都可能成为攻击点。

对此,于非的另一个主要研究方向——区块链技术,可以发挥作用。在CA V环境中,区块链(分布式账本技术)能够为车辆隐私数据,即“智能交换”的内容,提供保护。

智能交通系统中,车辆通常配备多种网络接口与路边单元及其他车辆通信。区块链技术的分布式特性可以增强智能交通系统的鲁棒性,改善车辆通信管理与信息共享,从而构建一个去中心化、可信且安全的智能交通体系。

自动驾驶无疑是人工智能改变生活的焦点领域。以集体学习为关键范式,在区块链技术保障安全与可信的基础上,智能互联将得到更深入的应用与实现。

对话于非:“明白了,就获得了自由”

围绕《智能简史》的核心思想,我们与于非教授进行了一次深入对话,以下是部分内容的提炼:

问:为什么实现高水平的单车智能仍然如此困难?

于非:2014年,埃隆·马斯克就将特斯拉的系统称为FSD(完全自动驾驶),并承诺“明年就能实现”。但直到今天仍未完全实现。结论是,这件事太难了。我在加拿大的研究也发现,在简单、受限的场景下相对容易,但要在开放世界中实现,极其困难。

正是这个困境促使我不断思考:问题究竟出在哪里?为什么运用了各种人工智能算法还是解决不了?我和学生们的研究,也与我写作这本书的思路一脉相承。

马斯克说过一句话,他说自己是个工程师,但自动驾驶不是一个工程问题,而是一个科学问题。科学上连“什么是智能”都还没搞清楚,工程师自然难以造出来。

问:那么这个科学问题该如何解决?

于非:人工智能的发展几经起伏,虽然不断有惊人突破,似乎正在迅速逼近甚至超越人类智能。各类新闻和科幻作品也让我们相信,通用人工智能或许并不遥远。

但现实往往又会泼来冷水。

如何解决这个科学问题?正如之前所说,科学最重要的是定义。如果只能进行文字描述,无法用数学定义和量化,问题就无解。所以我一直在思考如何定义它,如何让它成为一门科学。我查阅了大量资料,研究其他科学是如何建立的,这正是《智能简史》成书的思维过程。

问:所以最终的结论需要从宇宙大爆炸开始追溯?

于非:是的,这本书的副标题是“从大爆炸到元宇宙”。未来我们可能实现元宇宙,而科学的起点,我们相信始于大爆炸。那么从大爆炸开始,“智能”究竟是怎么回事?

研究过程中我发现非常有意思。从大爆炸到物理学的诞生,物理世界出现了许多“智能”现象。最宏大的一个例子就是天体的有序运行。这不仅令我们惊叹,也曾让牛顿感到惊奇。

牛顿有一句名言:“我不知道为什么,我只知道它符合万有引力定律。”他将其归因于一位“智能的上帝”。这暗示着,物理世界本身就可能存在智能现象。引力所造就的秩序,就是一种智能的体现。

1744年,法国科学家皮埃尔-路易斯·莫佩尔蒂发现了“最小作用量原理”。他发现,物体运动的路径,是作用量最小的那条。光也是如此,比如光线穿过水面发生折射,它选择的正是最省力、耗时最短的路径。莫佩尔蒂视其为上帝存在的证明,尽管当时备受嘲弄。

后来,最小作用量原理成为物理学中最基本的原理之一,深刻影响了科学的发展。我在写书时看到这些,也深感震撼。

从物理学到化学,再到生物学,智能的显现似乎都遵循着类似的阶段进化规律。

问:按照您的观点,从物理、化学到生物,乃至未来的虚拟世界和人工智能,都可以用同一套逻辑来理解“智能”?

于非:可以用同一套逻辑。这也是我思考的初衷——我希望用一个统一的逻辑来理解这个世界是如何运转的。所以《智能简史》开篇引用了斯宾诺莎的名言:“人类所能企及的最高活动就是为明白而学习,因为明白了就获得了自由。”能否用一个简洁的原理解释整个运行过程,这正是科学探索的最高境界。

科学与工程不同。工程是“我想解决一个问题”,科学是“我想弄明白这件事”。这是最根本的区别。但当你真正明白了世界的原理,它自然会告诉你如何解决问题。

因此,我将《智能简史》中的“智能”定义称为一种假说。这种假说认为,从大爆炸至今,从物理、化学到生物,各种现象都是为了推动宇宙趋于平衡稳定而产生的。举个例子,放在桌边的水杯会掉下去,这是因为万有引力。它为什么掉下去?因为如果它不掉下去,系统就不稳定;掉下去之后,系统就稳定了。

再比如一杯热水,热量在房间内不均匀分布时,系统是不稳定的。当热量扩散,内外温度趋于一致,系统就稳定了。而且,这种趋于稳定的过程,往往是以最快、最省力的方式进行的。

问:这种对智能的新认识,对您的研究,比如自动驾驶,有什么具体的指导意义?最快最省力的稳定原则是如何应用的?

于非:这是一个非常好的问题。这里有一个基本原则,即关于“智能”的定义。智能的本质是什么?就是对信息耗散多少的量化。信息在不同个体间存在差异,形成梯度,导致系统不稳定。

自动驾驶也是如此。一个熟练的老司机和自动驾驶系统之间存在“智能”梯度。即便机器可以通过各种算法学习,为什么还是学不好?究其原因,正是因为车与人脑之间存在梯度,而“智能”本身没有被量化。如果将智能度量出来,量化这个差值,有了科学的指导,就能清晰地知道自动驾驶系统需要在哪些方面改进和提高。

在智能时代,缺乏对“智能”的清晰定义是难以想象的。虽然我们也能实现一定程度的智能,但由于没有数学定义,大家往往只能通过试错和各种工程技巧去逼近目标。

例如,依靠强大的算力和海量数据,将现有算法模型推向极致。这种“大力出奇迹”的“暴力美学”,已经催生出参数规模惊人的模型,如拥有1750亿参数的GPT-3,和1.6万亿参数的Switch Transformer。训练这些超大模型消耗的电力高达数万度,产生的碳排放相当于一辆汽车在地球与月球之间往返的排放量。相比之下,人脑的工作功率仅约20瓦,就足以支撑全部的思维活动。

对智能本质理解的缺乏,限制了人工智能的发展,使得我们只能通过“暴力美学”和“调整参数”这类“体力劳动”来换取微弱的性能提升。

爱因斯坦说过:“你无法在制造问题的同一思维层次上解决这个问题。你必须超越它,达到一个新的层次。”研究智能也是如此,不能仅仅局限于人类智能本身,而应超越这个层次,将目光投向宇宙中更广泛的事物,在更高的维度上审视智能。

当我们站在更高的层次研究智能,考量宇宙中的各种现象,会发现智能是一种自然现象,与岩石滚动、冰雪消融类似。这些现象的出现,都是为了促进宇宙的稳定。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策