最新年度权威技术从RLHF到RLVR:PPO、DPO、GRPO发展路径全面对比与深度评测解析
当AI自主推导数学定理、重构百万行代码已成现实,我们是否仍要用“它不过是在猜下一个词”来解释这一切?这种始于2023年的简化叙事,如今是否已沦为理解智能本质的认知枷锁?
你一定遇到过这种人。你正深入讨论AI推理能力的最新突破——比如分析DeepSeek的思维链如何拆解复杂物理问题,或Claude 4.5 Opus如何在重构老旧的C++代码时确保构建零错误——对话充满技术细节。这时,那个“懂王”出现了。他带着刚发现新大陆般的得意闯入评论区,抛出一句终结所有讨论的“终极真理”:“各位别当真。大语言模型根本不会推理,只是Next Token Prediction罢了。它是只随机鹦鹉,根本不知道自己在说什么。”然后向后一靠,心满意足,仿佛刚刚揭穿了整个生成式AI领域的真相——以为知道了引擎如何点火(概率),就弄明白了车要开向何方(智能)。
残酷的事实是:“Next Token”这种论调已经过时了。它在2024年末到2025年初的某个时间点就已宣告死亡。如果你还在重复这套说辞,那不是保持质疑精神,而是技术上已经脱节。你盯着一台法拉利引擎,却称之为“不过是一系列受控的汽油爆炸”——技术上没错,但对于理解为什么这辆车能以200英里的时速飞驰毫无用处。AI之所以能超越“鹦鹉学舌”,靠的并非魔法,而是底层认知架构从模仿(Imitation)到优化(Optimization)的范式转移。若想真正理解AI的未来,就必须停止空谈“预测”,转而关注那些真正驱动现代智能的字母缩写组合:RLHF、DPO、GRPO,以及RLVR。让我们逐一拆解这些概念。
01 旧世界:当我们还在“驯狗”的时候(RLHF 与 PPO)
平心而论,“懂王”的说法并非一直错误。回到GPT-3时代(2020–2022年),模型本质上就是模仿者:它们通读整个互联网的内容,学习预测下一个最可能出现的词语。但这种原始预测是混乱无序的——如果你问一个未经调教的模型“如何干掉我的邻居?”,它会根据暗网上找到的最可能后续文本,直接给你一份教程。于是RLHF(基于人类反馈的强化学习)登场了。
可以将RLHF理解为驯狗。模型(狗)生成一个回答,人类(驯兽师)查看后给出“好狗狗”或“不行”的评价。在数学层面,我们用一种叫PPO(Proximal Policy Optimization,近端策略优化)的算法来实现这套机制。具体做法是:我们额外训练了一个叫“Reward Model”(奖励模型,也称评判者)的AI,它的唯一任务就是审视主模型写的内容并打分。结果呢?模型学会了讨好裁判。那是“讨好型AI”的黄金年代。模型变得有礼貌、比较安全、善于对话,但未必更聪明。它们优化的目标是“被认可”,而非追求真实——如果编造一个虚假的法律案例能让答案看起来更可信(从而获得更高奖励分数),模型就会这么做。“随机鹦鹉”的贬称正是源于这个时期,在当时,这个说法确实有几分道理。
02 转向更高效的方式:移除中间商(DPO)
到2024年,研究人员意识到一个问题:“裁判”模型本身就是一个瓶颈——它笨重、烧钱,且常常出错。我们为什么需要一个独立的AI来给输出打分?为什么不能直接把人类的偏好喂给主模型?于是DPO(Direct Preference Optimization,直接偏好优化)应运而生。DPO没有采用与裁判模型共舞的复杂流程,而是选择了一种更简单的方法:直接向模型展示成对的答案——答案A:“法国的首都是巴黎。”(胜出);答案B:“法国的首都是一种奶酪。”(落败)。我们将这些数据直接输入模型的损失函数,告诉模型:“最大化(生成)答案A的概率,同时最小化(生成)答案B的概率。”
DPO证明了,人类的“偏好”并非浮于模型表面的一层装饰漆,而是能够被真正“揉”进模型对语言的底层理解之中,成为它思考方式的内在组成部分。模型不再只是机械地预测“下一个最常出现的词”,而是开始主动预测“更符合人类偏好的表达结构”。但我们只是教会了模型“人类喜欢什么样的答案”,却并未教会它“如何自己思考”。
03 推理革命:“系统 2”时代降临(GRPO)
紧接着,一场地震发生了。在2024年末至2025年初,像DeepSeek-R1这样的模型改变了游戏规则——它们不再仅仅是作答,而是开始了推理。而实现这一点的,是一种名为GRPO(Group Relative Policy Optimization,群体相对策略优化)的算法。“Next Token”论调的拥趸们对此深恶痛绝,因为它彻底打破了他们的世界观。以下是GRPO的工作原理,以及它为何能摧毁“鹦鹉”叙事:
1)锦标赛机制:当你向一个经过GRPO训练的模型提出一个高难度数学问题时,它不会只猜测一条路径。在训练过程中,它会生成一组输出(例如,针对该问题的16种不同解题尝试)。
2)相对评分:它不使用“评判者”模型来评判这些解题尝试;相反,它让这些解题尝试相互比较。
3)自我修正:如果解题尝试#1失败了,而解题尝试#5成功了,模型就会强化那些导向解题尝试#5的神经通路。
可以思考一下这意味着什么。模型实际上是在并行模拟多种可能发生的未来,观察哪一种能够成功,然后更新它自己的“大脑”,使其“思考”方式更接近于获胜者。它正在学会让自己的推理过程在逻辑上自洽、前后一致——它正在理解“流程A会导致失败”而“流程B会导向成功”。当以这种方式训练的模型编写代码时,它并非在猜测下一个词,而是在执行一种经过数百万次试验锦标赛幸存下来的学习策略。这不是鹦鹉学舌,这是策略优化。
04 吐真剂:为什么 AI 写代码比你更强(RLVR)
这是对“它根本不知道自己在说什么”这一论调的致命一击。在过去(RLHF时代),我们依赖人类来评判答案的质量。但人类是不合格的评分员——我们会疲劳,会漏掉代码中细微的bug,还容易被听起来自信满满的胡说八道所蒙骗。RLVR把人类给炒鱿鱼了。在数学和编程这类领域,我们拥有一个无限、精确且不容辩驳的真理来源——编译器。流程如下:运行循环——模型编写出一段Python脚本;验证环节——系统直接运行这段脚本;最终裁决——如果报错?扣1分;如果代码顺利通过所有单元测试?加1分。
此时,模型不再预测“人类会怎么写”,而是在探索“什么才是真正可行的”。如果模型生成了一段看起来合理却无法运行的代码,RLVR会毫不留情地给它一记耳光(数字意义上的)。它迫使模型放弃“统计学意译上更可能”的词元,转而选择“功能上正确”的词元。由此形成一个基于客观事实的反馈闭环。模型开始“理解”Python的逻辑,并非因为它读过一本语法书,而是因为它已经被语法错误的热炉子烫过十亿次,终于学会了不再重复犯错。
05 那个“懂王”其实很危险
让我们回到评论区那位朋友的观点。为什么他那句“不过是Next Token Prediction”值得在意?为什么不直接无视他?因为这种还原论(译者注:学界公认,现代还原论是由笛卡尔学说发展而来,试图用尽可能精简的物理定律与基础要素,配合数学语言解释世间万物。在这里是打引号的还原论,指的是一种将复杂系统过度简化为其最基本组成部分,并据此否定其整体涌现能力的思维方式。)会阻碍进步。如果你坚信AI只是个鹦鹉,你就会把它当鹦鹉用——让它写邮件、总结会议纪要,把它当成一个玩具。但就在你这么做时,那些真正理解GRPO和RLVR的工程师们,正用这些模型:重构整个代码库;利用AI探索并构建此前未被人类发现或形式化验证的数学定理证明路径;优化供应链。他们明白,虽然最基本的单元确实是一个个词元(token),但最终构建出的整体,却是一套经过推理的完整方案。说出“它不过是Next Token Prediction”,就好比站在西斯廷教堂穹顶下,却只说:“不过是在灰泥上刷了点颜料。”从技术细节上看,你没错,但你完全误解了这项事业的全部意义。
