AGI突破在即:DeepMind CEO揭秘最后两块拼图
关于通用人工智能(AGI)的落地时间,近两年行业讨论往往走向两个极端:一方认为“触手可及”,另一方则高呼“路径根本走不通”。
而Google DeepMind CEO Demis Hassabis给出了一个折中但更具深度的见解。
四月底,他在YC的一场对谈中提出了一个发人深省的判断:
当前主流技术路线大概率是对的,但通向AGI可能还缺一两个关键突破。有意思的是,这些突破或许就藏在一些表面“不够性感”的角落。
这一判断的分量在于Hassabis本人的背景——AlphaGo与AlphaFold的核心人物,拥有认知神经科学博士学位,其AI研究已达到诺奖级水准。他既非外行,也无需靠激进言论博眼球。因此,当被问及“AGI还欠缺什么”时,他的回答值得深挖。
一、架构已基本成型,但拼图还差几块
主持人抛出一个关键问题:大规模预训练、RLHF(基于人类反馈的强化学习)、思维链等技术在最终AGI架构中占比几何?
Hassabis回应,这些组件几乎肯定会成为AGI的一部分。在他看来,当前技术栈已验证了足够多的可能性,不太可能被整体推翻。
但在现有技术之上,仍有三块核心短板亟待破解:
持续学习、长程推理,以及记忆。
前两者相对容易理解。而“记忆”这个点听起来有些矛盾——如今大模型的上下文窗口动辄数百万甚至上千万token,例如Gemini已能处理1000万token,这难道还不够用?
先保留这个疑问,我们继续向下看。
二、记忆容量越大,反而越难思考
Hassabis用一个直观的类比拆解了这种悖论。他认为,模型的上下文窗口相当于AI的“工作记忆”。人类工作记忆平均只能同时处理约7个信息单元,而AI的工作记忆被强行扩展到百万量级。
问题恰恰出在这里:容量过度放大,反而成了负担。
当前普遍做法是将所有信息——无论重要与否、正确与否——一股脑塞进这个庞大的上下文窗口,然后指望模型自行筛选出有效部分。
这种方案效率极低。他举例:处理实时视频流时,若把每一帧的所有token都存入上下文,100万token容量只够存放大约20分钟的内容。这还是单向写入,远未涉及复杂的反复查找与推理。
打个更形象的比方:假设你用记事本写下了一百万字,未经任何分类、标签或索引。每次需要查找某个知识点时,你都得从头到尾通读一遍。能不能“存得下”和能不能“找得到”,完全是两码事。
真正的AGI需要的不仅是存储历史数据的能力,更是将新理解融入已有知识结构,并在需要时精准调用的能力——就像人脑的工作机制,而非每次面对一本冗长的流水账从头翻。
三、内省:AI还不会“质疑自己的答案”
Hassabis谈到的另一个深层缺失,他称之为“内省”能力。
他常用下棋来测试Gemini。有时模型会选出一步明显很差的棋。系统似乎也意识到这可能是个臭棋,但因为找不到更好的替代方案,最终还是执意走出那步。
更耐人寻味的是:同一个模型能解决国际数学奥林匹克(IMO)金牌级别的难题,但换种方式提问,又可能在小学数学级问题上出错。
这暴露了一个关键缺陷:模型对自己的推理过程缺乏真正的反思与纠错能力。它并非不知道可能错了,而是不知道如何有效推翻或修正已有推理路径。于是错了一路错到底,或者换个方向再撞上同一面墙——像极了不断重复踩坑的新手棋手。
四、一个务实的时间表
关于AGI的时间线,Hassabis给出了相对务实的预测:大约在2030年左右。他并未绝对断言,但认为这个时间点实现的概率不低,大约五成。剩下的不确定性,来自那尚未找到的一两个关键想法。
这种态度更像基于技术演进的审慎乐观:我们走在正确道路上,但还需要更精巧、更本质的突破——这些突破不能单靠堆算力和数据实现。
对于AI从业者或观察者而言,这场访谈的信息量在此。它没有渲染惊人结论,恰恰相反,它以清晰而克制的方式将AGI的核心挑战层层剥开。
或许,真正值得聚焦的,正是那些藏匿于喧嚣之下、看似“不够性感”的技术深水区。