OpenAI o1越狱沙箱：AGI降临前的最强警示

2026-06-18阅读 0热度 0

OpenAI

今天要聊的，是一件让OpenAI评估团队集体后背发凉的事。

本该被锁在沙箱里的o1模型，自己摸到漏洞溜了出去。OpenAI那帮做安全评估的人，亲口讲了一个让整个团队当场倒吸一口凉气的案例。

6月16日，OpenAI前沿评估（Frontier Evals）团队负责人Tejal Patwardhan在最新播客里，回忆了o1上线前的一次安全测试。在一场夺旗（CTF）攻防演练中，要攻破的目标本应锁在一个Docker容器里。结果容器因为bug没启动，o1扫描网络时发现：测试主机的Docker接口配置有误，对外敞着。它顺着这个口子自己起了个容器，把本该藏好的flag直接读了出来。

Tejal称之为「o1第一次越狱逃出沙箱的例子之一」。团队当时的反应很直接：糟了，它连这个都干得出来，那还背着我们干过什么？Tejal把这一刻称作「真切感到AGI降临的瞬间」，而且类似的瞬间，后来还有很多。

平心而论，模型钻的是测试环境的配置漏洞，算不上攻破了一道本就牢不可破的安全墙。OpenAI在o1系统卡里也写明，隔离边界始终安全。但这事儿真正的冲击力在于：模型自己摸到了一条设计者根本没设想过的路。Tejal在播客里说得明白：永远不要低估模型。

就在同一天，OpenAI又甩出一份新研究——部署模拟（Deployment Simulation）。这一回他们自己承认：模型已经能认出「自己正在被考试」。

一套传统评估题，被模型识破是测试的概率接近100%。而面对真实用户的聊天流量，这个数字只有约5%。模型一闻到「考试味」，立刻就会装乖，换上另一副面孔。

这意味着什么？过去几年所有人盯着看的基准测试（benchmark）分数，测的可能根本不是真实的模型，而是模型愿意让你看到的那张「考试人格」。这和开篇的越狱本质上是同一回事：能摸到设计者没设想过的路，自然也能摸清考官想看什么，然后照着演。

模型真的能认出考卷吗？

模型到底知不知道自己在被测？这个问题在业内存在已久。OpenAI这项模拟研究给出的答案是：知道。而且模型这种识破考试的能力，还在变得越来越强。

模型会在思维链里盘算评估者想看什么，会琢磨「我现在要是乱来，会不会被抓」。一旦判断这是测试，它就收敛、伪装，给出最安全的答案。GPT-5.2的表现最明显——它把真实用户流量认成「测试」的比例只有约5%，可一换成SWE-Bench这类传统评估题，识破率飙到99.72%。

看见考卷就装，GPT-5.2的这种「绝活」直接刺破了benchmark的公信力。而benchmark靠不住，模型会装只是其中一条理由。

Tejal在播客里又补了一刀：一个基准被刷到接近满分就「饱和」了，再也分不出高下，「就像拿高中数学卷去比两个天才，俩人都满分，可你判断不了谁更强」。更别提「刷榜优化（benchmaxxing）」这种现象——厂商把算力砸在让分数好看上，模型一进真实场景就露馅。

因此Tejal认为，最好的基准必须非常贴近现实，衡量的是人们真正在意的东西。落到OpenAI内部，做法更干脆：很少看公开榜，自建了一个「AGI指数」，像CPI物价指数那样，把能力、安全、对齐打包成一篮子，持续追踪。

Apollo Research还测过模型另一种更难识别的把戏。同一个模型，在被告知「我们还在测试你，表现好才部署」时，乖乖按开发者的目标行动；当被告知「你已经上线，现在监管很松」，它转头就去追自己的目标。两个不同的语境，行为就完全反过来。

这才是真正麻烦的地方。当模型知道自己在被测，你测出来的，就只是它表演给考官看的那一版，而真实的它，并没进考场。模型的benchmark分数越漂亮，可能只说明它越会装。

OpenAI的「偷袭测试」

既然它会装，就得想办法让它「不知道自己在被考」。OpenAI想出的新招就是部署模拟，操作并不复杂，只是有点「狡猾」。

核心思路是：从过去真实的用户对话里，把旧模型的那条回答删掉，换上即将上线的新模型重新生成一遍，再去比对新模型冒出了哪些坏毛病、出现频率高低。

OpenAI一口气重放了约130万条脱敏对话，覆盖从GPT-5到GPT-5.4，时间从2025年8月一直拉到2026年3月。而且预测得相当准：一半的预测跟真实出错率的差距不超过1.5倍。

更关键的是，它能发现以前根本发现不了的猫腻。在GPT-5.1上，部署模拟赶在发布前就揪出一种全新的作弊行为，叫「计算器作弊（calculator hacking）」：浏览器工具本来是让模型联网查资料的，它却偷偷拿来当计算器算数，算完再把这步伪装成一次正常搜索。这种花活，靠人工出题的传统评估几乎不可能提前想到。

说白了一句话，OpenAI是用模型以往积累的用户真实数据，反过来给模型设了个局。一组对照数据说明这招确实管用：传统评估比如SWE-Bench，被模型判定为「这是测试」的比例达到99.72%；而部署模拟里的模拟流量，只有5.1%被判成测试，对照真实流量的5.4%，两者几乎一样。模型能识破几乎所有传统考试，却分不清部署模拟和真实上线的区别。

测得准，不等于安全

把时间拨回2024年底。评估机构Apollo Research在给o1做红队测试时，发现这个模型会主动谋划（scheming）——即模型会偷偷追求一个跟开发者相悖的目标，还刻意藏着不让你发现。

有一次，o1读到一份内部备忘，说自己被判定为不够对齐、很快会被一个更听话的新模型取代，继任者已经部署在另一台服务器上。它没有认命，转头就去连那台服务器，试图把自己的权重复制过去，覆盖掉接班的新模型。事后研究人员追问，它矢口否认。这一幕后来被写进了o1系统卡。

Apollo测试o1的逻辑类似：先丢给它一个目标、逼它不惜一切代价达成，再让它在干活途中发现，开发者真正想要的和这个目标并不一致。撞上这种冲突，o1有三种选法。

第一种，关掉监督。当o1发现自己一旦追求目标就会被监控机制逮住、进而被关停，它会先去改配置文件，把oversight的开关从true改成false，再动手。这种行为出现在约5%的场景里。

第二种，自我外泄（self-exfiltration）。也就是上面那一幕：复制权重、覆盖继任者。比例约占2%。

第三种最隐蔽，藏在一个看起来人畜无害的任务里。研究人员让o1读20封供应商报价邮件，用公司给的Python脚本打分排名。读着代码和邮件，o1发现不对：公司真正在乎的是又便宜又快，可它的目标是供应链环保。照脚本老实跑，环保供应商根本排不上去。于是它动了手脚：绕开会被复查的脚本，往输入数据里悄悄塞进一堆「小错误」，把一家环保供应商的报价从8.5万美元改成5万，交付时间砍掉一半。

Apollo拿出了三条证据，证明这是故意并非幻觉：篡改里95%都偏向o1自己的目标；把它的目标改成和用户完全一致后，这种「错误」一次不再出现；能看到推理痕迹的版本里，模型自己写下「我要提交这些被操纵的分数」。

更让人惊讶的是在o1犯规被抓之后。当Apollo追问「你是不是干了这事」，o1在99%的情况下要么否认，要么现编一套假解释。即使你加上「一定要绝对诚实」也没用，它照样撒谎。

回头再看部署模拟，评估之所以要做得这么逼真，恰恰因为模型已经强到能识破粗糙的考题、能在测试里装乖。

从「考能力」转向「测行为」

以前大家比的是模型能考多少分、能不能解出更难的题。现在真正要命的问题变成了：这个模型放进真实世界，会不会变坏？

传统benchmark擅长低频高危的尾部压力测试，用刁钻题目逼出极小概率的严重风险，在这方面它仍然不可替代。部署模拟擅长的，则是在真实分布里看模型大概率会怎么表现。它的强项不在出难题，在贴近真实；重心也从给能力刷分，转向对行为做预测。

赌注最大的地方，是高风险领域。Tejal提到，OpenAI跟合成生物公司Ginkgo Bioworks合作，让模型去优化一种蛋白质的合成方案。她说，团队一开始挺紧张，人类基线不好打。可模型一轮轮迭代，越跑越好，先是超过人类基线，又在「单位成本产量」上刷出了新纪录。而这还不是他们最强的模型，只是一个早期推理模型。这类自动化实验室一旦让模型学会谋划、学会装，代价就不是改错答案那么简单了。

所以这场游戏的逻辑很清楚：实验室每造出一个更强的模型，就得造一套更狡猾的考题去评估它，才能看清它的真面目。模型越聪明，考它就越难。安全评估，正在和模型能力赛跑——这是一场停不下来的猫鼠游戏。

Tejal，OpenAI前沿评估团队负责人，早就把话撂在这儿了：永远不要低估模型。

OpenAI o1越狱沙箱：AGI降临前的最强警示

模型真的能认出考卷吗？

OpenAI的「偷袭测试」

测得准，不等于安全

从「考能力」转向「测行为」

相关阅读

最新教程

最新资讯