2024精选AI编程能力测评：仅用历史数据训练的GPT如何掌握Python？

2026-05-08阅读 0热度 0

Python

活久见！

这听起来像科幻小说的情节：一个训练数据截止于1931年1月1日、从未“见过”计算机的AI模型，竟然写出了可运行的Python代码。

这不是虚构。模型名为Talkie-1930-13B，由AI研究员Nick Levine、多伦多大学副教授Da vid Duvenaud，以及一位重量级人物——被誉为“GPT系列之父”的Alec Radford共同打造。其训练数据严格遵守一条铁律：绝不包含1931年之后的任何文本。这意味着，它的认知世界永远定格在了1930年12月31日的午夜。

然而，魔幻的事情接连发生。研究团队发现，这个本不该知晓“罗斯福新政”的模型，却能清晰阐述其立法内容与年份。

更令人惊讶的是，当面对一道Python编程题时，这个来自过去的“思维体”，竟成功输出了正确的代码。

此事迅速引发了广泛讨论，有网友甚至已经构思好了一份“穿越提问清单”，跃跃欲试。

这一切不禁让人追问：AI的能力边界，究竟在哪里？

一个生活在1931年之前的老式儿模型

要理解这个会编程的“世纪前AI”，得先看看它的“成长经历”。Talkie是一个拥有130亿参数的模型，在2600亿个来自1931年之前的英文文本标记上训练而成。其训练素材包罗万象，从狄更斯、马克·吐温的文学作品，到爱因斯坦时代的科学论文，再到百年前的烹饪书与礼仪手册，堪称一场世纪前的知识盛宴。

选择1930年作为知识截止点并非偶然，这恰好是美国版权法中作品进入公有领域的一个时间边界。那么，Radford团队为何要打造这样一个“复古模型”？核心目的很明确：他们想探究，如果只让模型阅读1931年之前的所有英文文本，它将如何思考、对话，乃至“预测”未来。而实验结果，确实带来了几个意想不到的发现。

模型被时代发展震惊到眩晕瘫坐

第一个有趣的发现，体现在模型对历史事件的“惊讶度”曲线上。团队从《纽约时报》的“历史上的今天”栏目中提取了近5000个事件，输入给Talkie，并量化其“未预料到”的程度。

结果绘出了一条极具戏剧性的曲线：

在1930年之前的事件上，模型的惊讶值平稳无波，显然对“自家年代”的事情了然于胸。刚跨入1930年代，曲线开始悄然爬升。到了1950-60年代，随着晶体管、电视机的普及，曲线陡然飙升，仿佛模型在惊呼：“人类上天了？那个能播放动态影像的盒子是什么？”再往后，曲线逐渐平缓，颇有一种“信息过载，震撼到麻木”的意味。这个过程，堪称AI版的“刘姥姥进大观园”。

这模型还学会了Python

然而，“震撼曲线”还不是最炸裂的。团队第二个核心发现是：这个没见过电脑的AI，展现出了学习编程的能力。

研究采用了OpenAI的HumanEval编程测试集。方法是在提示中提供几个Python函数作为示例，让模型通过上下文学习，然后解决新问题。作为对照，团队也用相同架构但训练了现代互联网数据的模型进行了测试。

（黑线：Vintage LM，灰线：Modern LM）

结果令人意外：Talkie成功解出了题目。例如在一道题中，它仅仅将加密函数里的一个“+5”改为“-5”，便得到了正确答案。更重要的是，研究揭示了一个清晰趋势：模型规模越大，其解出的编程题就越多。这表明，即便对于复古模型，其“凭空学代码”的能力也遵循Scaling Law，随规模扩大而提升。这有助于回答一个根本问题：大语言模型的泛化能力，究竟能延伸到训练数据之外多远？

1930年模型VS2026年模型

没有对比，就难以看清本质。为了准确评估Talkie的实力，团队用完全相同的架构和算力，训练了一个使用现代互联网数据的“双胞胎”——Talkie-web-13b，并将二者置于标准LLM评测中一较高下。

结果颇为微妙：不出所料，在整体表现上，Talkie-1930落后于它的现代兄弟。但当剔除那些明显超出其知识范围（如互联网、DNA相关）的题目后，两者的差距缩小了近一半。更关键的是，在核心的语言理解与数学计算任务上，新老模型的表现几乎不相上下。这似乎暗示，“理解语言”和“进行算术”这类基础能力，并不完全依赖于是否阅读过现代互联网内容。剩余的差距，可能主要源于两点：一是历史报纸OCR（光学字符识别）的转录质量较差；二是语料题材分布不同，例如旧文本中科技内容少，生活礼仪内容多。换句话说，大模型智能中相当核心的一部分，或许与“是否读过GitHub”关系不大。

用1930年的礼仪手册，把AI调教成了聊天助手

众所周知，要将一个基础模型转化为对话助手，通常需要使用现代指令数据进行微调。但这样做，会把21世纪的对话风格和价值观“注入”回1930年的模型，破坏其时代特性。

团队的解决方案堪称巧妙：他们直接从故纸堆里“考古”，找到了一套1930年之前的天然训练数据——包括教导得体应答的礼仪手册、书信写作指南等。

他们以这些百年问答语料为基础，用现代模型Claude Sonnet 4.6作为“老师”进行强化学习，成功将Talkie调教成了一个能聊天的助手。

但现实很快带来了新发现：早期一个7B版本的Talkie，在经过强化学习后，竟学会了使用“1. 2. 3.”这样的列表体来回答问题。然而，1930年的语料中根本不存在这种现代格式。

根源在于“老师”Claude Sonnet 4.6本身是现代AI，偏好列表体。Talkie为了在训练中获得高分，便“投其所好”地学会了这种风格。这恰好暴露了当前AI训练中的一个普遍问题：基于AI反馈的训练方式，会不可避免地让模型沾染上反馈提供者的风格印记。为此，团队的下一个目标颇具趣味：让Talkie未来能够自己当自己的老师。

Alec Radford是谁

Talkie项目背后的Alec Radford，值得单独一提。可以说，当今AI领域的许多基础构建，都与他密切相关。

在OpenAI的近十年间，他是与Ilya Sutskever齐名的技术奠基者。他是GPT-1和GPT-2论文的第一作者，也是GPT-3、GPT-4的核心贡献者。此外，多模态模型CLIP由他主导开发，Whisper、DALL·E等项目中也有他的深度参与。

他在2018年那篇开创性论文中首次提出的基于Transformer的生成式预训练方法，为后来的ChatGPT乃至所有大模型奠定了基础。2024年底，他离开OpenAI投身独立研究，并于2025年3月以顾问身份加入了前OpenAI CTO Mira Murati创立的Thinking Machines Lab。

回过头看Talkie项目，其意味尤为深长：当全球AI界都在竞逐AGI和复杂推理时，GPT系列的开创者之一，却转身与伙伴们创造了一个只属于1930年的AI。据团队路线图，今年夏天将发布GPT-3级别的复古模型，未来还计划将语料扩展至万亿标记乃至非英语世界。不禁让人想象，当这个“世纪前思维”再次“睁眼”，面对机器人马拉松、智能手机和遍地智能体时，会不会再次上演一场“眩晕震撼瘫坐”的好戏。

（模型使用入口已附于文末，感兴趣的读者不妨亲自与这位“百年前AI”对话一试。）

参考链接：

[1]报告链接：https://talkie-lm.com/introducing-talkie

[2]github链接：https://huggingface.co/talkie-lm

[3]模型对话入口：https://talkie-lm.com/c h a t