AGI突破在即：DeepMind CEO揭秘最后两块拼图

2026-05-28阅读 0热度 0

DeepMind

关于通用人工智能（AGI）的落地时间，近两年行业讨论往往走向两个极端：一方认为“触手可及”，另一方则高呼“路径根本走不通”。

而Google DeepMind CEO Demis Hassabis给出了一个折中但更具深度的见解。

四月底，他在YC的一场对谈中提出了一个发人深省的判断：

当前主流技术路线大概率是对的，但通向AGI可能还缺一两个关键突破。有意思的是，这些突破或许就藏在一些表面“不够性感”的角落。

这一判断的分量在于Hassabis本人的背景——AlphaGo与AlphaFold的核心人物，拥有认知神经科学博士学位，其AI研究已达到诺奖级水准。他既非外行，也无需靠激进言论博眼球。因此，当被问及“AGI还欠缺什么”时，他的回答值得深挖。

一、架构已基本成型，但拼图还差几块

主持人抛出一个关键问题：大规模预训练、RLHF（基于人类反馈的强化学习）、思维链等技术在最终AGI架构中占比几何？

Hassabis回应，这些组件几乎肯定会成为AGI的一部分。在他看来，当前技术栈已验证了足够多的可能性，不太可能被整体推翻。

但在现有技术之上，仍有三块核心短板亟待破解：

持续学习、长程推理，以及记忆。

前两者相对容易理解。而“记忆”这个点听起来有些矛盾——如今大模型的上下文窗口动辄数百万甚至上千万token，例如Gemini已能处理1000万token，这难道还不够用？

先保留这个疑问，我们继续向下看。

Hassabis用一个直观的类比拆解了这种悖论。他认为，模型的上下文窗口相当于AI的“工作记忆”。人类工作记忆平均只能同时处理约7个信息单元，而AI的工作记忆被强行扩展到百万量级。

问题恰恰出在这里：容量过度放大，反而成了负担。

当前普遍做法是将所有信息——无论重要与否、正确与否——一股脑塞进这个庞大的上下文窗口，然后指望模型自行筛选出有效部分。

这种方案效率极低。他举例：处理实时视频流时，若把每一帧的所有token都存入上下文，100万token容量只够存放大约20分钟的内容。这还是单向写入，远未涉及复杂的反复查找与推理。

打个更形象的比方：假设你用记事本写下了一百万字，未经任何分类、标签或索引。每次需要查找某个知识点时，你都得从头到尾通读一遍。能不能“存得下”和能不能“找得到”，完全是两码事。

真正的AGI需要的不仅是存储历史数据的能力，更是将新理解融入已有知识结构，并在需要时精准调用的能力——就像人脑的工作机制，而非每次面对一本冗长的流水账从头翻。

Hassabis谈到的另一个深层缺失，他称之为“内省”能力。

他常用下棋来测试Gemini。有时模型会选出一步明显很差的棋。系统似乎也意识到这可能是个臭棋，但因为找不到更好的替代方案，最终还是执意走出那步。

更耐人寻味的是：同一个模型能解决国际数学奥林匹克（IMO）金牌级别的难题，但换种方式提问，又可能在小学数学级问题上出错。

这暴露了一个关键缺陷：模型对自己的推理过程缺乏真正的反思与纠错能力。它并非不知道可能错了，而是不知道如何有效推翻或修正已有推理路径。于是错了一路错到底，或者换个方向再撞上同一面墙——像极了不断重复踩坑的新手棋手。

关于AGI的时间线，Hassabis给出了相对务实的预测：大约在2030年左右。他并未绝对断言，但认为这个时间点实现的概率不低，大约五成。剩下的不确定性，来自那尚未找到的一两个关键想法。

这种态度更像基于技术演进的审慎乐观：我们走在正确道路上，但还需要更精巧、更本质的突破——这些突破不能单靠堆算力和数据实现。

对于AI从业者或观察者而言，这场访谈的信息量在此。它没有渲染惊人结论，恰恰相反，它以清晰而克制的方式将AGI的核心挑战层层剥开。

或许，真正值得聚焦的，正是那些藏匿于喧嚣之下、看似“不够性感”的技术深水区。