2024精选AI编程能力测评:仅用历史数据训练的GPT如何掌握Python?

2026-05-08阅读 0热度 0
Python

活久见!

这听起来像科幻小说的情节:一个训练数据截止于1931年1月1日、从未“见过”计算机的AI模型,竟然写出了可运行的Python代码。

这不是虚构。模型名为Talkie-1930-13B,由AI研究员Nick Levine、多伦多大学副教授Da vid Duvenaud,以及一位重量级人物——被誉为“GPT系列之父”的Alec Radford共同打造。其训练数据严格遵守一条铁律:绝不包含1931年之后的任何文本。这意味着,它的认知世界永远定格在了1930年12月31日的午夜。

然而,魔幻的事情接连发生。研究团队发现,这个本不该知晓“罗斯福新政”的模型,却能清晰阐述其立法内容与年份。

更令人惊讶的是,当面对一道Python编程题时,这个来自过去的“思维体”,竟成功输出了正确的代码。

此事迅速引发了广泛讨论,有网友甚至已经构思好了一份“穿越提问清单”,跃跃欲试。

这一切不禁让人追问:AI的能力边界,究竟在哪里?

一个生活在1931年之前的老式儿模型

要理解这个会编程的“世纪前AI”,得先看看它的“成长经历”。Talkie是一个拥有130亿参数的模型,在2600亿个来自1931年之前的英文文本标记上训练而成。其训练素材包罗万象,从狄更斯、马克·吐温的文学作品,到爱因斯坦时代的科学论文,再到百年前的烹饪书与礼仪手册,堪称一场世纪前的知识盛宴。

选择1930年作为知识截止点并非偶然,这恰好是美国版权法中作品进入公有领域的一个时间边界。那么,Radford团队为何要打造这样一个“复古模型”?核心目的很明确:他们想探究,如果只让模型阅读1931年之前的所有英文文本,它将如何思考、对话,乃至“预测”未来。而实验结果,确实带来了几个意想不到的发现。

模型被时代发展震惊到眩晕瘫坐

第一个有趣的发现,体现在模型对历史事件的“惊讶度”曲线上。团队从《纽约时报》的“历史上的今天”栏目中提取了近5000个事件,输入给Talkie,并量化其“未预料到”的程度。

结果绘出了一条极具戏剧性的曲线:

在1930年之前的事件上,模型的惊讶值平稳无波,显然对“自家年代”的事情了然于胸。刚跨入1930年代,曲线开始悄然爬升。到了1950-60年代,随着晶体管、电视机的普及,曲线陡然飙升,仿佛模型在惊呼:“人类上天了?那个能播放动态影像的盒子是什么?”再往后,曲线逐渐平缓,颇有一种“信息过载,震撼到麻木”的意味。这个过程,堪称AI版的“刘姥姥进大观园”。

这模型还学会了Python

然而,“震撼曲线”还不是最炸裂的。团队第二个核心发现是:这个没见过电脑的AI,展现出了学习编程的能力。

研究采用了OpenAI的HumanEval编程测试集。方法是在提示中提供几个Python函数作为示例,让模型通过上下文学习,然后解决新问题。作为对照,团队也用相同架构但训练了现代互联网数据的模型进行了测试。

(黑线:Vintage LM,灰线:Modern LM)

结果令人意外:Talkie成功解出了题目。例如在一道题中,它仅仅将加密函数里的一个“+5”改为“-5”,便得到了正确答案。更重要的是,研究揭示了一个清晰趋势:模型规模越大,其解出的编程题就越多。这表明,即便对于复古模型,其“凭空学代码”的能力也遵循Scaling Law,随规模扩大而提升。这有助于回答一个根本问题:大语言模型的泛化能力,究竟能延伸到训练数据之外多远?

1930年模型VS2026年模型

没有对比,就难以看清本质。为了准确评估Talkie的实力,团队用完全相同的架构和算力,训练了一个使用现代互联网数据的“双胞胎”——Talkie-web-13b,并将二者置于标准LLM评测中一较高下。

结果颇为微妙:不出所料,在整体表现上,Talkie-1930落后于它的现代兄弟。但当剔除那些明显超出其知识范围(如互联网、DNA相关)的题目后,两者的差距缩小了近一半。更关键的是,在核心的语言理解与数学计算任务上,新老模型的表现几乎不相上下。这似乎暗示,“理解语言”和“进行算术”这类基础能力,并不完全依赖于是否阅读过现代互联网内容。剩余的差距,可能主要源于两点:一是历史报纸OCR(光学字符识别)的转录质量较差;二是语料题材分布不同,例如旧文本中科技内容少,生活礼仪内容多。换句话说,大模型智能中相当核心的一部分,或许与“是否读过GitHub”关系不大。

用1930年的礼仪手册,把AI调教成了聊天助手

众所周知,要将一个基础模型转化为对话助手,通常需要使用现代指令数据进行微调。但这样做,会把21世纪的对话风格和价值观“注入”回1930年的模型,破坏其时代特性。

团队的解决方案堪称巧妙:他们直接从故纸堆里“考古”,找到了一套1930年之前的天然训练数据——包括教导得体应答的礼仪手册、书信写作指南等。

他们以这些百年问答语料为基础,用现代模型Claude Sonnet 4.6作为“老师”进行强化学习,成功将Talkie调教成了一个能聊天的助手。

但现实很快带来了新发现:早期一个7B版本的Talkie,在经过强化学习后,竟学会了使用“1. 2. 3.”这样的列表体来回答问题。然而,1930年的语料中根本不存在这种现代格式。

根源在于“老师”Claude Sonnet 4.6本身是现代AI,偏好列表体。Talkie为了在训练中获得高分,便“投其所好”地学会了这种风格。这恰好暴露了当前AI训练中的一个普遍问题:基于AI反馈的训练方式,会不可避免地让模型沾染上反馈提供者的风格印记。为此,团队的下一个目标颇具趣味:让Talkie未来能够自己当自己的老师。

Alec Radford是谁

Talkie项目背后的Alec Radford,值得单独一提。可以说,当今AI领域的许多基础构建,都与他密切相关。

在OpenAI的近十年间,他是与Ilya Sutskever齐名的技术奠基者。他是GPT-1和GPT-2论文的第一作者,也是GPT-3、GPT-4的核心贡献者。此外,多模态模型CLIP由他主导开发,Whisper、DALL·E等项目中也有他的深度参与。

他在2018年那篇开创性论文中首次提出的基于Transformer的生成式预训练方法,为后来的ChatGPT乃至所有大模型奠定了基础。2024年底,他离开OpenAI投身独立研究,并于2025年3月以顾问身份加入了前OpenAI CTO Mira Murati创立的Thinking Machines Lab。

回过头看Talkie项目,其意味尤为深长:当全球AI界都在竞逐AGI和复杂推理时,GPT系列的开创者之一,却转身与伙伴们创造了一个只属于1930年的AI。据团队路线图,今年夏天将发布GPT-3级别的复古模型,未来还计划将语料扩展至万亿标记乃至非英语世界。不禁让人想象,当这个“世纪前思维”再次“睁眼”,面对机器人马拉松、智能手机和遍地智能体时,会不会再次上演一场“眩晕震撼瘫坐”的好戏。

(模型使用入口已附于文末,感兴趣的读者不妨亲自与这位“百年前AI”对话一试。)

参考链接:

[1]报告链接:https://talkie-lm.com/introducing-talkie

[2]github链接:https://huggingface.co/talkie-lm

[3]模型对话入口:https://talkie-lm.com/c h a t

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策