辅助系统让GPT-5.2准确率飙至75% 免训练微调
什么?决定AI能力上限的不再是底层模型,而是外层的“推理编排”(Orchestration)。
在大语言模型完全固定的前提下,仅凭一套智能体系统(Agentic System),就能让AI的推理表现大幅跃升。
在看过专注于“AI推理与自我改进系统”的初创公司Poetiq最新评测后,不少人得出了这一论断。
部分测试截图
近期,Poetiq公开的结果显示,在ARC-AGI-2测试集上,利用其元系统(meta-system)驱动GPT-5.2 X-High,成绩相当突出。ARC-AGI-2这一基准主要用于衡量前沿模型在复杂抽象推理任务上的表现。
具体而言,在统一的Poetiq测试平台上,GPT‑5.2 X‑High在完整的PUBLIC-EVAL数据集上取得了75%的准确率。这意味着什么?相比此前的SOTA(最佳成绩)提升了约15%,而单道题目的处理成本控制在8美元以内。
这里说的PUBLIC-EVAL属于ARC测试的子集,包含基础推理任务以及标准的NLP、数学推理题,适合做广泛模型评估,数据集公开且标准化。而ARC-AGI-2则涵盖更多高难度、富有挑战性的推理问题,专门考察模型的抽象推理、常识推理、创新力等,堪称对顶尖模型的极限压力测试。
下图展示了各SOTA模型在PUBLIC-EVAL数据集上的成绩分布:
需要着重指出的是,Poetiq没有对GPT-5.2进行任何微调或模型专属优化。换言之,纯粹依靠元系统自身的能力,在极短时间内实现了准确率与成本的双重显著提升。
Poetiq进一步推断:若PUBLIC-EVAL中的优秀表现规律能延续到ARC Prize官方的SEMI-PRIVATE测试集,那么“GPT-5.2 X-High + Poetiq”的组合将超越以往所有系统配置,表现更强、更优。
ARC Prize总裁Greg Kamradt对此评价道:“很高兴看到Poetiq发布GPT-5.2 X-High的结果。若该成绩能维持,他们的系统似乎能很好地处理模型交换。当然,在OpenAI API基础设施问题解决之前,结果尚未完全验证。”
这里提到的“模型交换”是指系统可根据不同任务需求灵活切换模型,而无需对系统或模型本身做大规模调整或重新训练。
OpenAI总裁Greg Brockman也转发了该消息,并表示GPT-5.2在ARC-AGI-2上已超越人类基准水平。
面对这个全新测试结果,评论区自然涌现出更多疑问,例如“每个任务平均耗时多久”。
Poetiq回复称:“我们目前没有专门采集这类统计信息。最简单的问题大约8到10分钟完成,最困难的问题必须在12小时前终止,以确保不超时。因此,未来仍有充足的优化空间。”
还有观点指出:大部分提升源自测试框架与编排机制,而非任何模型专属调优。在未做任何训练变更的前提下,ARC-AGI-2成绩提升约15%,这本身就说明在搜索、路由和终止逻辑上仍存在巨大改进潜力。
另一个有趣的问题:为何在此设置中,X-High单任务成本反而低于High?是因为它通过更早找到正确方案实现更快收敛,还是因为测试框架更积极地剪枝无效推理过程?
对此Poetiq肯定了“X-High比High更快收敛到正确答案”这一解释。
6人团队打造元系统
Poetiq由6位研究员和工程师组成,核心成员多来自Google DeepMind。
Ian Fischer(联合创始人兼联席CEO):曾任Google DeepMind高级研究员;
Shumeet Baluja(联合创始人兼联席CEO):同样出身于Google/DeepMind的资深专家。
Poetiq之所以取得上述成果,关键在于其构建的元系统(meta-system)。
元系统不依赖特定大模型,可与任何前沿模型配合使用(如Gemini 3、GPT-5.1、Grok等),而非训练或微调模型本身。这意味着它能随着新模型发布快速适配并提升性能。
Poetiq元系统构建了一种迭代式推理流程,与传统一次性生成答案的方式截然不同,包含两大核心机制:
迭代式问题求解循环:系统并非只向模型提问一次,而是利用大语言模型(LLM)生成潜在方案,随后接收反馈、分析反馈,并再次调用LLM对方案进行改进。这种多步骤、自我改进的过程,使系统能逐步构建并不断完善最终答案。
自我审计(Self-Auditing):系统能自主审计自身运行进度,自行判断何时已获得足够信息、当前方案是否令人满意,从而决定终止整个流程。这种自我监控机制对避免不必要计算浪费、有效降低整体成本至关重要。
Poetiq特别强调,其所有元系统的适配工作在新模型发布前就已完成,且系统从未直接接触过ARC-AGI任务集。即便如此,它依然在多个不同模型上实现了跨版本、跨模型族的性能提升,说明元系统对推理策略具有良好的泛化能力。
正是这种灵活、强大且具备递归能力的架构,使得Poetiq这样一支小规模团队能在极短时间内取得一系列最先进(SOTA)成果。
针对该元系统,有人评价道:“太棒了。在模型之上构建智能,而不是在模型内部构建,意味着几个小时内就能适配新模型,非常高明。适配开源模型并成功迁移到新的封闭模型,表明捕捉到的是推理过程本身的基本规律,而非模型特定的怪癖。”
参考链接:https://poetiq.ai/posts/arcagi_verified/








