美团LongCat团队开源General365:权威通用推理评测基准榜单

2026-05-16阅读 0热度 0
LongCat

大模型评测领域近期迎来一项关键进展。美团LongCat团队开源了名为General365的基准测试,专门用于深度评估大模型的通用推理能力。测试结果颇具启示性:在覆盖八大推理维度的365道原创题及其变体构成的挑战中,参与评测的26款主流大模型里,仅Gemini 3 Pro的准确率勉强触及62.8%,绝大多数模型未能达到60%的及格线。这直接引发了一个核心追问:那些在学科竞赛中表现亮眼的模型,其底层通用逻辑思维能力是否真的扎实?

General365的主要功能

该基准能够产生高区分度的结果,源于其几项核心设计原则:

  • 高多样性评测:基准包含365道人工精心设计的种子题,并衍生出1095个变体。题目全面覆盖复杂约束、分支枚举、时空推理、递归回溯、语义干扰、隐式信息、最优策略和概率不确定性这八大挑战维度,确保评估的广度与深度。
  • 推理与知识解耦:为纯粹衡量逻辑能力,General365将题目背景知识严格限定在K-12(中小学)水平。此举有效防止模型依赖庞大知识库“走捷径”,迫使其必须构建并展示清晰的推理链条。
  • 混合评分系统:评分采用多标准框架。数值题通过math-verify工具进行解析验证;选择题和文本题则引入GPT-4.1进行模型评分。经人工验证,这套混合评分系统的准确率高达99.6%。
  • 公开子集与隐藏测试集:为防范数据污染导致的模型“刷题”行为,基准采用半公开策略。目前公开了180道种子题及其变体(共720题),其余题目作为隐藏测试集,用于更真实、防作弊的能力评估。
  • 多模型横向评测:它支持对OpenAI、Gemini、Anthropic、DeepSeek、Qwen、GLM、Kimi及LongCat自身等超过26款主流模型进行标准化横向对比,结果直观清晰。

General365的技术原理

这套基准的科学性与有效性,建立在以下关键技术细节之上:

  • 八大维度拆解通用推理:团队首先将抽象的“通用推理”能力解构为上述八个核心挑战类型。每道题目至少对应一个维度,且近70%的题目同时具备两个以上类别标签,保证了题目的复合性与挑战性。
  • 避免模板化与死记硬背:针对现有基准的常见痛点,General365通过t-SNE语义分布验证和Gemini 3 Pro的推理路径相似度评分,确保题目间在逻辑上具备足够的独立性,有效防止模型通过记忆“解题模板”获取高分。
  • 难度过滤与人工审核:题目生成流程严谨。所有题目均经过严格的难度过滤、多样性扩充、利用模型进行题目扩展,以及最终的人工审核把关,最终形成了包含1460道题的高质量题库。
  • 混合评分框架:如前所述,针对不同题型(数值、选择、文本)采用规则验证与先进模型评分相结合的框架,在保证评分效率的同时,显著提升了结果的准确性与可靠性。

General365的核心优势

相较于现有评测基准,General365的独特价值体现在以下几个方面:

  • 聚焦真实推理能力:它不同于AIME、IMO等侧重特定学科知识的竞赛题。General365专注于日常场景下的通用逻辑,直指当前大模型可能存在的“高分低能”短板——即擅长解答知识密集型问题,却在基础逻辑推理上暴露缺陷。
  • 高区分度:当多数SOTA(最先进)模型得分仅在60%左右徘徊时,该基准的区分度优势便凸显出来。它有效避免了如BBH(Big-Bench Hard)等基准出现的性能饱和问题,能够持续区分不同模型的能力层次。
  • 经得起检验的多样性:语义分布分析显示,General365的题目分布均匀分散,其逻辑独立性显著高于BBH和BBEH(Big-Bench Extra Hard),这意味着它更难被“套路化”的方法破解。
  • 开源可复现:项目在GitHub上提供了完整的评测代码,研究社区可快速接入、复现结果并进行延伸研究,有力推动了评测过程的透明化与标准化。

General365的项目地址

对于希望深入了解或使用的开发者和研究人员,可通过以下渠道获取资源:

  • 项目官网:https://general365.github.io/
  • GitHub仓库:https://github.com/meituan-longcat/General365
  • HuggingFace模型库:https://huggingface.co/datasets/meituan-longcat/General365_Public
  • arXiv技术论文:https://arxiv.org/pdf/2604.11778

General365的同类竞品对比

为更清晰地定位General365,我们将其与业界两个常用硬核基准进行简要对比:

维度 General365 BBH (Big-Bench Hard) BBEH (Big-Bench Extra Hard)
评测重点 通用推理(K-12 知识) 综合任务推理 高难度综合任务
题目数量 365 种子 + 1095 变体 23 项任务 多项任务扩展
多样性 极高(语义分布均匀,逻辑独立性强) 较低(存在明显聚集现象) 较低(模板化严重)
难度区分度 高(SOTA 仅 62.8%) 低(性能已饱和) 中等
评分方式 混合评分(规则+模型,准确率 99.6%) 规则评分为主 规则评分为主
数据公开策略 半公开(180 题公开 + 隐藏测试集) 全公开 全公开

General365的应用场景

这样一个高难度、高区分度的基准,可在多个关键场景中发挥作用:

  • 大模型研发评测:对模型开发者而言,它是高效的“诊断工具”。能精准识别模型在复杂约束、语义干扰、最优策略等特定维度的推理短板,从而进行针对性优化。
  • 模型选型参考:对于企业用户,在选择商用或开源模型时,General365的评测结果提供了超越简单问答能力的、更深层次的推理能力数据支撑,辅助做出更明智的技术选型决策。
  • 学术研究:它为通用推理这一重要研究方向提供了标准化的评测工具和数据集,有助于推动大模型从“记忆型学科专家”向“思维型通用推理者”演进。
  • 推理效率分析:该基准还支持分析模型准确率与输出token数量之间的关系,从而评估模型在达成正确推理时的计算效率,为优化推理成本提供关键洞察。
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策