辅助系统让GPT-5.2准确率飙至75% 免训练微调

2026-06-19阅读 0热度 0

什么？决定AI能力上限的不再是底层模型，而是外层的“推理编排”（Orchestration）。

在大语言模型完全固定的前提下，仅凭一套智能体系统（Agentic System），就能让AI的推理表现大幅跃升。

在看过专注于“AI推理与自我改进系统”的初创公司Poetiq最新评测后，不少人得出了这一论断。

部分测试截图

近期，Poetiq公开的结果显示，在ARC-AGI-2测试集上，利用其元系统（meta-system）驱动GPT-5.2 X-High，成绩相当突出。ARC-AGI-2这一基准主要用于衡量前沿模型在复杂抽象推理任务上的表现。

具体而言，在统一的Poetiq测试平台上，GPT‑5.2 X‑High在完整的PUBLIC-EVAL数据集上取得了75%的准确率。这意味着什么？相比此前的SOTA（最佳成绩）提升了约15%，而单道题目的处理成本控制在8美元以内。

这里说的PUBLIC-EVAL属于ARC测试的子集，包含基础推理任务以及标准的NLP、数学推理题，适合做广泛模型评估，数据集公开且标准化。而ARC-AGI-2则涵盖更多高难度、富有挑战性的推理问题，专门考察模型的抽象推理、常识推理、创新力等，堪称对顶尖模型的极限压力测试。

下图展示了各SOTA模型在PUBLIC-EVAL数据集上的成绩分布：

需要着重指出的是，Poetiq没有对GPT-5.2进行任何微调或模型专属优化。换言之，纯粹依靠元系统自身的能力，在极短时间内实现了准确率与成本的双重显著提升。

Poetiq进一步推断：若PUBLIC-EVAL中的优秀表现规律能延续到ARC Prize官方的SEMI-PRIVATE测试集，那么“GPT-5.2 X-High + Poetiq”的组合将超越以往所有系统配置，表现更强、更优。

ARC Prize总裁Greg Kamradt对此评价道：“很高兴看到Poetiq发布GPT-5.2 X-High的结果。若该成绩能维持，他们的系统似乎能很好地处理模型交换。当然，在OpenAI API基础设施问题解决之前，结果尚未完全验证。”

这里提到的“模型交换”是指系统可根据不同任务需求灵活切换模型，而无需对系统或模型本身做大规模调整或重新训练。

OpenAI总裁Greg Brockman也转发了该消息，并表示GPT-5.2在ARC-AGI-2上已超越人类基准水平。

面对这个全新测试结果，评论区自然涌现出更多疑问，例如“每个任务平均耗时多久”。

Poetiq回复称：“我们目前没有专门采集这类统计信息。最简单的问题大约8到10分钟完成，最困难的问题必须在12小时前终止，以确保不超时。因此，未来仍有充足的优化空间。”

还有观点指出：大部分提升源自测试框架与编排机制，而非任何模型专属调优。在未做任何训练变更的前提下，ARC-AGI-2成绩提升约15%，这本身就说明在搜索、路由和终止逻辑上仍存在巨大改进潜力。

另一个有趣的问题：为何在此设置中，X-High单任务成本反而低于High？是因为它通过更早找到正确方案实现更快收敛，还是因为测试框架更积极地剪枝无效推理过程？

对此Poetiq肯定了“X-High比High更快收敛到正确答案”这一解释。

6人团队打造元系统

Poetiq由6位研究员和工程师组成，核心成员多来自Google DeepMind。

Ian Fischer（联合创始人兼联席CEO）：曾任Google DeepMind高级研究员；

Shumeet Baluja（联合创始人兼联席CEO）：同样出身于Google/DeepMind的资深专家。

Poetiq之所以取得上述成果，关键在于其构建的元系统（meta-system）。

元系统不依赖特定大模型，可与任何前沿模型配合使用（如Gemini 3、GPT-5.1、Grok等），而非训练或微调模型本身。这意味着它能随着新模型发布快速适配并提升性能。

Poetiq元系统构建了一种迭代式推理流程，与传统一次性生成答案的方式截然不同，包含两大核心机制：

迭代式问题求解循环：系统并非只向模型提问一次，而是利用大语言模型（LLM）生成潜在方案，随后接收反馈、分析反馈，并再次调用LLM对方案进行改进。这种多步骤、自我改进的过程，使系统能逐步构建并不断完善最终答案。

自我审计（Self-Auditing）：系统能自主审计自身运行进度，自行判断何时已获得足够信息、当前方案是否令人满意，从而决定终止整个流程。这种自我监控机制对避免不必要计算浪费、有效降低整体成本至关重要。

Poetiq特别强调，其所有元系统的适配工作在新模型发布前就已完成，且系统从未直接接触过ARC-AGI任务集。即便如此，它依然在多个不同模型上实现了跨版本、跨模型族的性能提升，说明元系统对推理策略具有良好的泛化能力。

正是这种灵活、强大且具备递归能力的架构，使得Poetiq这样一支小规模团队能在极短时间内取得一系列最先进（SOTA）成果。

针对该元系统，有人评价道：“太棒了。在模型之上构建智能，而不是在模型内部构建，意味着几个小时内就能适配新模型，非常高明。适配开源模型并成功迁移到新的封闭模型，表明捕捉到的是推理过程本身的基本规律，而非模型特定的怪癖。”

参考链接：https://poetiq.ai/posts/arcagi_verified/