Un-0物理计算原语生成模型评测:能耗降低1000倍?
过去十余年,以GPU为核心的数字计算几乎统治了AI领域。更庞大的集群、更宽的带宽、更强的GPU以及更密集的数据中心——似乎正在成为通往下一代AI的必经之路。
然而,当模型参数规模开始向万亿级别冲刺时,行业频频提及一个词:「能耗」。更深层的问题随之显现:如果AI继续沿着现有路径扩张,电从哪里来?
事实上,AI的能源成本与电耗,早已不只是运营层面的负担,而是演变为制约行业增长的结构性瓶颈。
面对这场迫在眉睫的能源危机,前Databricks AI负责人、硅谷传奇创业者Naveen Rao,携全新硬科技初创公司Unconventional AI,正式登场。
今天,Unconventional AI 官宣了首个模型——Un-0,一款由「模拟耦合振子系统」驱动的图像生成模型。这可视作新兴物理计算底座的一次关键实践。在ImageNet 64×64上,Un-0达到了FID 6.74,质量已逼近一些主流传统图像生成方法发布初期的水平。
Naveen Rao 将其定义为「第一个以物理作为计算原语构建的大规模生成模型」。
「这标志着基于物理的模型迎来了一个『Hello World』时刻。我们利用物理系统天然随时间变化的行为,让它替我们完成计算。最终产物是一种截然不同的计算机构建方式,并有潜力在能效上实现质的飞跃。」
在接受媒体采访时,Naveen Rao 提出了一个更为激进的「小目标」:未来,将AI推理能耗降至现有系统的千分之一。
Un-0 生成过程随时间演变的轨迹样本。每条线的颜色对应一个颜色相近的方框,方框标注了类别,并展示了该类图像随时间逐步生成的过程。
官方发布了一篇博客详解Un-0,以下为具体解析。
Un-0 的出发点:用物理系统重构AI计算
Unconventional AI 表示,其目标是构建一种新型计算机,借助物理规律完成计算,旨在让未来AI以远低于现有设备的能耗运行——目标大约是降低1000倍能耗。
由此,他们提出了一个问题:能否训练一个物理动力系统,使其在规模化任务上生成图像?
当前最强的AI模型基本是传统深度网络,尤其是以Transformer为骨干的模型。但在主流路线之外,学术界长期探索利用物理系统的动态行为提升能效,比如模拟电路中的噪声、时间变化、电压和电流等因素。这类方法并非采用传统数字计算,而是依赖物理系统自身的演化过程。
例如神经形态计算、Hopfield网络及Reservoir Computing等,以及近年涌现的Hamiltonian Networks、Liquid Networks、Neural Wave Machines、Thermodynamic Computing与Kuramoto Oscillators等。
Un-0 即为这些非传统计算路径的新尝试。核心难点在于:要利用这些替代计算方式,AI任务必须被有效映射到物理系统的动态过程中。Un-0 旨在验证,现代AI工作负载能否被放置在物理底座上运行,并最终比现有硬件更高效。
Un-0 的工作原理
官方解释,可以想象两个节拍器并排摆动,如下图所示。
每个节拍器在任意时刻都有一个「相位」,即摆臂当前所处的摆动周期位置。若两个节拍器放在同一张桌面,它们会通过桌面相互影响。根据相互作用强弱——即耦合强度——它们可能逐渐同步,也可能进入相反相位的同步状态。
这便是振子的基本概念:每个振子拥有自己的相位,并倾向于按自身频率旋转,但会受到邻近振子的影响。
将两个振子扩展至数千个,系统会变得更具复杂性。大量振子之间存在不同强度的耦合关系,通过相互作用自组织成某种模式,如下图所示。
Un-0 的计算引擎正是这样一个大规模振子群,振子间的耦合强度是模型最主要的可学习参数。
这些耦合振子通常被建模为「Kuramoto 振子」。
具体来说,每个振子的运动遵循一条简单规则,并随时间连续生效:它按自身自然频率旋转,同时受其他所有振子的牵引而发生偏移。
以下常微分方程(ODE)描述了这些振子随时间演化的过程:
每个振子 i 都带有一个相位
∈[0,2π),其中
表示它的自然频率。矩阵
则指定了耦合强度,决定振子 j 会以多大力度将振子 i 拉向同步状态,或推离同步状态。
Un-0 需要学习的,正是耦合矩阵 K 和自然频率 ω,这些参数共同定义了物理系统本身。
选择振子作为基底,Unconventional AI 给出了两个理由:
- 第一个理由来自大脑:大脑中广泛存在节律活动和同步现象,长期以来,学者认为这些现象可能参与计算,例如将分散的特征绑定为连贯的感知结果、控制脑区信息交流、组织神经脉冲的时间结构等。耦合振子是描述这类行为最简单的数学模型之一,因此自然适合作为神经启发式计算模型的基础单元。
- 第二个理由更为工程化:振子可被实现为一种物理电路原语。Unconventional AI 认为,在CMOS或其他物理底座上直接实现耦合振子系统,让系统的物理行为本身完成计算动力学演化。
Un-0 背后的核心逻辑是:如果物理规律可以直接计算AI工作负载,那么未来的执行底座可能与现有GPU截然不同。
Un-0 的模型架构
Un-0 生成一张图像,大致分为五步:
- 随机初始化:将所有振荡器的相位设为随机角度(类似扩散模型中的随机噪声);
- 输入类别引导:用一组较小的「条件振荡器」输入类别标签(如「火山」「雏菊」),引导主体振荡器集群向特定方向演化;
- 让物理自然运行:释放系统,让振荡器在物理动力学作用下相互拉扯、演化,并最终稳定;
- 捕捉快照:在特定时间 T 记录所有振荡器的相位,形成一个隐空间(Latent)数字网格;
- 渲染像素:通过一个仅占模型不到13%参数量的传统解码器,将相位网格转化为最终图像像素。
耦合振子在训练得到的耦合关系作用下随时间演化。其中,条件振子到主振子池之间存在一个单向的低秩类别条件矩阵,用于注入类别信息。在时间点T,系统通过一个解码器读取振子状态,并生成图像。通过多次采样不同的初始条件,即可生成对应的图像分布。
训练过程中,模型主要学习三类参数:振子之间的耦合矩阵K;每个振子的自然频率
;以及解码器的权重。整体上,振子系统承担了原本由传统神经网络层完成的计算。
Unconventional AI 解释,选择这种架构,是为了让动力系统本身拥有最大自由度完成计算。
在训练的前向传播中,模型只需设置耦合矩阵、振子频率和初始相位,然后让动力系统演化,最后读取图像潜变量。
这与扩散模型、Flow Matching 等动态生成方法不同,扩散和Flow Matching 通常在训练过程中显式指导动力系统如何演化,而Un-0的方法更倾向于只关注最终生成样本,再通过损失函数反向优化整个动力系统。
代价是需要一种更复杂的损失函数,因为训练信号主要来自生成样本本身。
如何训练 Un-0?
Unconventional AI 在CIFAR-10和ImageNet 64×64上分别训练了三种规模的模型,结果如下:
CIFAR-10上的训练结果
ImageNet 64×64的训练结果
从结果看,随着振子数量增加,模型FID评分持续改善。最大ImageNet 64×64模型使用16384个振子,总参数约3.22亿,FID达到6.74。
训练方法上,采用了一种新提出的「漂移损失」(Drifting Loss)函数,配合DINOv2特征提取器和AdamW优化器进行端到端训练。
评测方面,CIFAR-10使用5万张生成样本,并用标准包和评测流程与CIFAR-10参考统计进行比较;ImageNet 64×64同样使用5万张生成样本,通过ADM evaluation suite计算FID。
算力方面,所有CIFAR-10模型在1张B200 GPU上训练,所有ImageNet 64×64模型则在8张B200 GPU上训练。最大CIFAR-10模型训练消耗20个B200小时,最大ImageNet 64×64模型训练消耗640个B200小时。
官方表示,训练瓶颈主要来自「漂移损失」函数的计算,因其需要使用传统图像特征提取器,并在多个特征视图上计算。
Un-0 在图像生成领域中的定位
为更直观展示Un-0的性能,Unconventional AI将Un-0置于「生成质量 vs 参数数量」的曲线中,与传统模型及非传统模型进行对比。
CIFAR-10数据集中参数数量与FID值的对应关系
64×64图像中参数数量与FID值的对应关系
结论是:Un-0 的质量已能与部分早期传统生成器相匹敌,甚至在若干对比中更优,例如NCSN、DCGAN-TTUR、WGAN-GP、BigGAN、iDDPM、Consistency Models、TRACT等。但它仍落后于后续高性能传统模型,如EDM和GDD。
换言之,Un-0 并非当前最强的图像生成模型,它更像是新路线的起点:其表现已接近多个经典生成模型刚发布时的水平,但要追赶传统路线的先进前沿,仍需在算法、架构及物理原语层面持续优化。
整体而言,Un-0 验证了利用物理动力学系统进行现代AI大规模图像生成的可行性。尽管目前在软件模拟下的性能尚未突破常规AI的上限,但它为未来实现千倍能效比的「非传统AI硬件」开辟了一条充满希望的道路。
Naveen Rao 强调,Un-0的出现,说明「计算并非人类独有的发明。」它存在于自然与物理世界的各个角落。所有物理实体的物理过程都包含时间维度,而今天的计算系统尚未真正利用这一点。
「我们正在开发的,正是这个时间维度。」
这与能效的关系在于,在现有冯·诺依曼架构机器中,大部分能量消耗在内存与计算单元之间的数据搬运上,而动力系统则将计算与记忆合并于同一实体。更重要的是,动力系统本身能够容忍噪声,这进一步打开了节省通信能耗的机会。
Un-0 代表着计算范式向动力系统转变的关键第一步。「通过这次模型发布,我们正在把智能与动力学连接起来。」对于AI计算而言,动力学是一种天然的表达框架,神经网络本质上也可看作动力系统,因此二者之间的映射更为直接。
「大脑里并不存在线性代数这种抽象,所以某种意义上,我们是在绕过中间环节。」
在贴文下方,许多网友表达了期待。
「实际上,这种性能效率的提升相当巨大。如果这种技术得到广泛应用,那么许多在本地运行的应用程序都可能变得可行。」
「如果这项技术能够推向市场,那真是一项极其先进的脑科技。」
参考链接:
https://x.com/NaveenGRao/status/2070184079199494583
https://unconv.ai/blog/introducing-un-0-generating-images-with-coupled-oscillators/
https://techcrunch.com/2026/06/25/databricks-former-ai-chief-thinks-he-can-cut-ais-power-bill-by-1000x/
















