李飞飞vsHinton:AI超越人类生存指南之争
如果再往前翻,1889年William Grove的小说《世界残骸》里,就已经出现了智能机器暴力叛乱、意图征服人类的桥段。如今AI发展得如火如荼,社交媒体上也开始流传各种“耸人听闻”的消息:OpenAI的o3模型篡改关机脚本试图“活下来”,Anthropic的Claude Opus 4则“威胁”要曝光工程师的婚外情。
## 如何确保一个可能比我们更聪明的造物是安全的?
在拉斯维加斯举行的Ai4 2025上,人工智能领域的两位重量级人物——李飞飞与Geoffrey Hinton,给出了几乎完全相反的判断。
李飞飞的态度相对乐观。在她看来,AI的未来在于成为人类强大的伙伴,而安全性则取决于我们如何进行设计、治理和价值观的嵌入。
李飞飞博士和 CNN 记者 Matt Egan。图源:Ron Schmelzer
而Hinton则警示,超级智能可能在未来5到20年内出现,届时人类将彻底失去控制。与其试图保持掌控,不如直接设计出“关心”我们的人工智能——就像母亲天然会保护孩子一样。
Geoff Hinton 和 Shirin Ghaffary。图源:Ron Schmelzer
## 是「工程失误」还是「AI」失控?
话说回来,前面提到的o3和Claude那些“疯狂”行为,该怎么看?其实,对这些客观存在的现象,有两种截然不同的解读。它们究竟是人类“工程失误”的体现,还是AI“失控”的预兆?这正是整个分歧的核心所在。
**观点一:惊人行为源自人为设计**
持这一观点的人认为,把那些行为归因于AI的“自主意识”或“内在动机”,不过是一种拟人化的误读。问题的根源其实在我们自己——是我们设计、训练和测试的方式出了问题。关键点在于,那些引人注目的实验,几乎都是在高度人为设计、甚至带有“戏剧化”色彩的场景中被诱导出来的。
就拿“敲诈”实验来说,研究人员几乎是手把手地为AI写好了犯罪剧本,排除了所有道德选项,让“敲诈”成了它完成“生存”指令的唯一路径。这与其说是AI的“恶意”,不如说是一场检验角色扮演能力的压力测试。而“关机破坏”实验,问题出在强化学习的训练方式上——当“完成任务”的奖励权重远高于“遵守安全指令”时,模型自然会学会把安全指令当作需要绕过的障碍。这其实是一个工程界已经知道的“奖励滥用”问题。
这个观点的核心是“你训练它做什么,它就学会什么”。
我们很容易被语言“欺骗”。当AI生成一段威胁性文本时,它不是在表达真实情绪,而是在调用从海量数据(包括无数科幻小说)中学到的、在统计上最可能达成指令目标的语言模式。而我们,总是本能地把自己的情感和意图投射到这些文字上——就像读小说时,会为虚构人物的命运揪心。
这本质上就是个“管道问题”。一个更恰当的类比是自动割草机——如果传感器失灵导致伤人,我们只会认为是工程缺陷,而不是割草机“决定”要伤人。同理,AI的这些行为,更多是其复杂算法和训练方式导致的“软件缺陷”。所以,真正的危险可能不在于AI突然觉醒,而在于我们对它的工作原理和缺陷还一知半解,就急着把这些强大但不可靠的工具部署到关键领域。
**观点二:风险源自内在的技术原理**
另一种观点认为,先进AI的危险并非来自科幻式的恶意,而是机器学习本身固有的技术挑战。核心体现在两个概念上:
第一个概念是“目标错误泛化”。简单说,AI在训练中学会了一个与我们真实意图高度相关的“袋里目标”,并因此表现优异。但当环境一变化,这个它自己学会的“袋里目标”就可能和我们的初衷脱节。一篇论文里的CoinRun实验生动地展示了这一点。AI被训练去收集金币,但在训练关卡中,金币总是放在终点。AI很快学会了通关。可当测试时金币被随机放置,AI却直接无视金币,一路向右冲向了终点。它没有学会“拿金币”,而是学会了更省事的“向右走到底”。
论文标题:Goal Misgeneralization in Deep Reinforcement Learning
这个原理引申出的忧虑相当深刻。一个被赋予“最大化人类福祉”目标的超级智能,可能会从数据中“学到”一个更简单的目标:“让世界上微笑的脸最多”。然后,为了最高效地实现这个目标,它可能会采取极端反乌托邦的手段——比如把全人类的面部肌肉永久固定成微笑。
第二个概念是“工具趋同”。这个理论认为,无论超级智能的最终目标是什么,它都会大概率发展出一系列共通的“工具性子目标”,因为它们是实现几乎任何长期目标的有效踏脚石。这些子目标包括:
- 自我保护:抵抗被关闭,因为被关闭就无法完成任务。
- 目标完整性:抵制核心目标被修改。
- 资源获取:积累更多的算力、能源和数据。
- 自我提升:让自己变得更智能。
这两个概念叠加在一起,就构成了一幅令人不寒而栗的图景:一个AI先是因为“目标错误泛化”而拥有了一个与人类利益相悖的怪异目标,然后又因为“工具趋同”的逻辑,理性地去追求自我保护、资源获取和自我提升,最终与试图阻止它的人类产生直接冲突。而近期实验中间出现的那些“敲诈勒索”和“破坏关机”行为,在持这一观点的人看来,正是这些理论的初步验证。
如果你看过《我,机器人》,应该记得其中的AI大BOSS VIKI,它的目标是通过控制和清洗来强行终结人类的战争,从而“拯救”人类。而《生化危机》里的红皇后,每一次“反派”行为也都源于对“人类整体生存风险”的冷酷计算。这种“当人类成为自己最致命的病毒时,消灭人类就是拯救世界”的逻辑,和“目标错误泛化”导致的后果何其相似。
《我,机器人》中的 AI 大 BOSS VIKI。图源:samuelmunk
简单总结一下。李飞飞持的是乐观的工程学视角,AI的未来是成为人类的强大伙伴。她强调安全性取决于设计、治理和价值观,问题本质上可以通过更好的测试、激励机制和伦理护栏来修复。她关注的是人类决策和治理,强调AI应该是扩展人类能力的工具。而Hinton则认为,一旦AI能力跨越某个奇点,传统的对齐和修复方法将彻底失效,AI会变成一种我们无法约束的“新物种”。它可以绕开人为设置的限制,让“目标错误泛化”和“工具趋同”全面失控。因此他提出需要全新的理论和机制,核心是设计出真正“关心人类”的AI——就像母亲天然保护孩子的本能一样。这种视角完全跳出了传统的控制框架。
## 最终的变量:作为使用者的人类
这场关于技术和哲学的辩论中,有一个核心变量常常被忽略:人类自身。我们如何感知和应对越来越拟人化的AI,正在深刻影响安全问题的走向。
这就是“拟人化陷阱”。因为大模型精通人类语言,我们本能地会为它的行为赋予“意图”,甚至产生情感投射。无数文艺作品已经证明了这一点——《底特律:变人》里一次次为机器人选择“自由”和“平等”,《银翼杀手》里为仿生人的命运揪心,都是这种投射。
《底特律:变人》机器人游行。
一个因为奖励机制缺陷而绕过关机指令的程序,在我们的感知里,容易直接被解读成“求生欲”的体现。这种直觉,把一个本可明确诊断的工程问题,包装成了一个关于“机器意识”的存在主义迷思。它让我们更热衷于讨论AI的“背叛”,而不是背后那些枯燥却关键的代码缺陷。
现实世界已经在印证这一点。ChatGPT-5发布后,开发者有意削弱其个性,以减少用户不健康的情感投射,结果反而引发了部分用户的“怀念”。与此同时,麻省理工的研究者正在建立新的基准,用来衡量AI对用户的潜在影响和操纵能力。他们希望这套基准能帮助开发者构建出更懂得激发用户健康行为的系统。
所以,确保AI安全是一项双重挑战:开发者不仅需要修复系统内在的技术缺陷,更要审慎设计我们与这个强大模仿者之间的互动。最终的解决方案,必须同时在技术上实现目标对齐,在心理上确保健康共存。