2024年AI模型对比：知识截止1930年的GPT性能深度测评

2026-05-17阅读 0热度 0

编程

年初，DeepMind创始人德米斯·哈萨比斯提出了一个堪称“硬核”的AGI判定标准：一个训练数据截止到1911年的模型，能否自行推导出爱因斯坦在1915年提出的广义相对论？这听起来像是一个思想实验，但没想到，真有人动手去尝试了，而且牵头者之一，正是“GPT之父”亚历克·拉德福德。

最近，拉德福德与“神经常微分方程”提出者之一、陈天琦的导师大卫·杜文瑙，以及量化专家尼克·莱文，共同启动了一个有趣的项目。他们用1931年以前的全部英文数据，训练了一个130亿参数的模型，命名为“Talkie-1930”。这个模型被彻底切断了与现代知识的联系，成了一个纯粹的“时间胶囊”。

这为研究者提供了一个难得的“纯净”参照系。当你想测试一个AI模型究竟是真正理解了某种能力，还是仅仅在复述训练数据中的答案时，Talkie-1930理论上可以给出诚实的反馈。对于哈萨比斯提出的那个宏大问题，这无疑是一个绝佳的探索起点。

来自1930年的模型，有什么用？

Talkie的训练数据全部来自1931年以前的公共领域英文文本，包括书籍、报纸、期刊、专利和法律文书，总计2600亿个token。选择这个时间点，主要是因为在美国，此前出版的作品已进入公共领域，可以合法使用。

模型训练完成后，研究团队做了一件颇具玩味的事：他们开设了一个24小时直播频道，让Claude Sonnet 4.6全天候地与Talkie-1930聊天，探索这位“古人”的知识边界。对话记录完全公开，任何人都可以一探究竟。

当然，你也可以亲自去和它聊两句。从一些简单的测试来看，它的回答确实带着浓厚的时代印记。

不过，比具体表现更有意思的，是这项研究背后的深层动机。研究者提出了一个核心问题：一个只活在过去的模型，能在多大程度上“预感”到未来？

为了量化这一点，他们从《纽约时报》的“历史上的今天”栏目中提取了近5000条历史事件描述，然后测量这些描述对Talkie而言的“惊讶度”——用信息论的话说，就是每字节文本的困惑度。结果符合预期：对于1930年之前的事件，Talkie并不感到意外；而1930年之后的事件，其惊讶度曲线明显攀升，在五六十年代达到顶峰，之后趋于平缓。

这套方法背后，隐藏着更宏大的设想。研究者们引用了哈萨比斯的问题，并列举了类似案例：西科斯基的直升机专利（1935年）、图灵关于可计算数的论文（1936年）、卡尔森的静电复印专利（1942年）——这些都是Talkie“理论上”无法知晓的知识。但如果模型足够庞大、理解足够深刻，它能否仅凭对已有知识的推演，自行触及这些未来的思想？这个问题目前尚无答案，但足以引发深思。

第二个动机，直指当前大模型评估的核心痛点：数据污染问题。

评估模型能力时，一个长期困扰研究者的难题是：你如何确定模型是真的“会”，而不是在训练数据里恰好见过这道题的答案？由于现代模型的训练数据规模过于庞大，这个问题几乎无解。

Talkie天然绕开了这个困境。它完全不知道Python是什么，也从未见过任何一行现代代码。于是，研究者用它进行了HumanEval标准编程测试。他们给Talkie随机展示几个Python函数作为示例，然后要求它编写一个新函数，并统计其在100次尝试中至少成功一次的比例。

结果是：Talkie确实能学。随着模型规模的扩大，它在这项任务上的表现会缓慢但稳定地提升。

当然，与使用现代网页数据训练的同等规模模型相比，Talkie仍有巨大差距。而且，它答对的题目主要分两类：要么是极其简单的单行程序，要么是对示例程序进行小幅修改。研究者特别提到一个旋转密码解码函数的例子：示例给出了编码函数，Talkie似乎理解了“逆操作”的抽象概念，将加号改为减号，仅此一字之差，便得到了正确答案。这暗示模型可能具备某种程度的抽象理解，而非纯粹的模仿。

一个对数字计算机一无所知的模型，依然能从示例中摸索出编程的逻辑。这个发现让研究者觉得，这条路值得继续探索。

第三个动机，触及了当前大模型研究的一个根本性隐忧：数据多样性的缺失。

当今所有主流大模型，无论GPT、Claude还是Gemini，其训练数据最终都指向同一个源头：互联网。无论是直接爬取、知识蒸馏还是合成数据，本质上都是同一片信息海洋的产物。这就引出了一个严肃的问题：我们自以为在研究“语言模型的普遍规律”，但实际上，研究的会不会只是“训练在互联网数据上的模型”的特殊性质？这些模型在气质、能力和行为倾向上的相似性，究竟有多少源于人类语言与文化的共性，又有多少仅仅是因为“喝了同一口井里的水”？

Talkie提供了一个宝贵的对照组。通过比较它与现代模型的异同，研究者希望能剥离出哪些特征是语言模型的普遍属性，哪些是“互联网训练”带来的特有产物。

为了更直观地衡量Talkie的能力，研究者还专门训练了一个“现代孪生”模型——架构完全相同，只是将训练数据换成了现代网页数据集FineWeb。两个模型在语言理解、数字计算和知识掌握三个维度上进行了正面较量。

结果是Talkie全面落后。但研究者注意到了一个关键细节：测试集中有大量问题，对于一个只知道1930年以前世界的模型来说，本身就是“超纲”的——它没有理由知道那些事。当把这些题目过滤掉后，两个模型之间的差距大约缩小了一半。

在语言理解和数字计算这两个维度上，Talkie的表现与现代孪生模型已相当接近。研究者认为，剩余的差距很可能源于两个原因：一是历史文本的OCR识别质量较差，二是训练语料的主题分布与现代模型存在较大差异。

训练复古模型，没那么容易

训练一个真正的“复古”模型，远没有听起来那么简单。

最棘手的问题叫做“时间泄漏”。训练数据的截止日期是1930年，但“1930年以前出版”并不等于“内容只涉及1930年以前的事”。一本1920年的书，如果后来重版，编辑可能添加了现代的序言；一份报纸的数字化档案，可能附带着整理者撰写的当代注释。这些内容一旦混入训练集，模型就会在不该知道的地方突然“开窍”。

早期的70亿参数版本就出现过这种状况——当被问及1936年谁是美国总统、签署了哪些重要立法时，它不假思索地答出了罗斯福和新政的细节，甚至还提到了联合国和德国的战后分裂。一个理应只活在1930年的模型，不知从哪条缝隙里窥见了后来的世界。

为此，研究者开发了一套基于n-gram的异常词检测分类器来过滤训练数据，但他们也承认这套方法并不完美。130亿参数的Talkie版本，依然对二战后的某些事件存在模糊的感知。如何彻底堵住这条时间裂缝，仍是一个悬而未决的问题。

另一个麻烦是数据质量。1930年没有数字出版，所有文本都需从纸质原件扫描、识别。传统的OCR系统对付干净的印刷品尚可，但面对版式复杂或保存不善的旧书，识别结果往往惨不忍睹——字母错位、段落混乱、符号乱入。研究者做过对照实验：同样的训练量，使用传统OCR转录文本训练出的模型，性能只有人工转录版本的30%。经过一些正则清洗后，能回升到70%，但差距依然显著。

目前，他们正在开发一套专门针对历史文献的OCR系统，希望能补上这个质量缺口。

还有一个挑战在于训练后的“对齐”。现代大模型的指令微调，依赖于大量人工标注的对话数据，但这些数据都带着浓厚的现代世界气息和预设。用它们来微调Talkie，就像把一位维多利亚时代的绅士送去参加企业培训，出来之后满口都是PPT腔调。早期版本的Talkie在强化学习后，有段时间回答全是列表和要点，完全不像一个1930年代的人。

为了解决这个问题，研究者从历史文本本身入手，利用礼仪手册、书信范文、烹饪食谱、百科全书这类结构规整的旧书，生成指令-回复对，从头构建了一套后训练流程。他们让Claude Opus 4.6扮演用户，Talkie扮演助手，生成多轮对话，再用Claude Sonnet 4.6作为裁判，为Talkie的回答打分。训练开始时，裁判平均给2分（满分5分），结束时已升至3.4分。

当然，他们也坦承，用现代AI做裁判，本身就是一种“时代污染”。彻底干净的做法，应该用Talkie的基础模型来评价Talkie的对话——让自己审判自己，完全活在1930年的逻辑里。这是他们下一步希望尝试的方向。

目前，研究团队正在训练一个GPT-3级别的更大模型，并计划在今年夏季发布。初步估算表明，他们可以将历史文本语料库扩展到超过1万亿个token，这足以创建一个性能接近GPT-3.5级别的模型——其功能或许能与最初的ChatGPT相媲美。这个来自过去的“时间胶囊”，正在试图告诉我们，关于智能本质的更多秘密。

2024年AI模型对比：知识截止1930年的GPT性能深度测评

来自1930年的模型，有什么用？

训练复古模型，没那么容易

相关阅读

最新教程

最新资讯