2024数学大模型榜单:K0-Math深度测评与O1对比解析
在京东科技大厦,月之暗面创始人杨植麟正式发布了其数学推理模型 k0-math。该模型在核心数学能力上直接对标OpenAI的o1系列,并同步披露了一项关键运营数据:截至2024年10月,Kimi智能助手的月活跃用户数已超过3600万。
阐述技术路线时,杨植麟将强化学习置于核心位置。他认为,未来的突破点将超越传统的、基于静态数据集的“下一个词预测”(Next-Token Prediction)范式,因为后者难以处理需要复杂逻辑链条的任务。核心在于赋予AI系统深度“思考”的能力,而强化学习是实现这一目标的关键路径。
这类似于解决一道数学证明题:最终答案固然重要,但更具价值的是严谨的解题思路和步步为营的推导过程。这是一个完整的认知链条,而传统预测方法难以有效建模这种链式推理。
为何选择数学作为首要突破领域?杨植麟援引了伽利略的观点——数学是书写宇宙的语言。数学问题结构严谨、定义清晰,且无需与物理世界进行复杂交互,构成了锤炼AI推理能力的理想“沙盒”。OpenAI的o1模型也验证了这一路径的可行性。k0-math正是从数学这一核心场景切入,旨在将其习得的推理能力迁移至更广泛的通用任务中。
具体而言,面对一道高难度竞赛题时,k0-math可能会进行多次、多样化的求解尝试。在历经八九种不同思路的探索后,模型能够融合先前尝试中的有效部分,最终整合出一条正确的解题路径。
性能表现如何?根据公布的基准测试结果,k0-math初代模型的数学能力已与OpenAI o1系列中已公开的o1-mini和o1-preview模型处于同一梯队。在中考、高考、考研数学及包含入门竞赛题的MATH基准测试中,k0-math实现了分数超越。在更高难度的竞赛级题库OMNI-MATH和AIME上,其表现也分别达到了o1-mini最佳成绩的90%和83%。
据悉,强化版的k0-math模型将于未来一到两周内,在Kimi探索版中向用户开放。新版本将重点强化三大能力:用户意图理解、信源深度分析以及链式思考。
从技术实现看,这种深度思考模式带来了新的挑战。在强化学习框架下,模型生成的大量“中间思考过程”数据,其有效性与正确性成为关键。这与处理静态标注数据的传统模式截然不同,对奖励模型(Reward Model)的设计与训练提出了更高要求。核心挑战在于设计更高效的奖励机制,以引导模型尽可能规避无效或错误的推理路径。
这种机制也引发了一个有趣的“过度思考”(Overthinking)现象。例如,当被问及“1+1等于几”时,k0-math可能会启动一整套复杂的推理流程,最终才得出结论“等于2”。杨植麟解释,这源于当前奖励模型未对思考长度进行硬性限制,允许模型自由探索。当然,通过调整奖励模型的结构参数,可以在一定程度上抑制这种冗余思考。
关于用户体验,杨植麟透露,搭载强化版k0-math的Kimi探索版可能会为用户提供自主开关选项。这一设计在早期有助于精准匹配用户需求与算力分配。其背后涉及两项技术考量:一是模型需具备动态分配最优计算资源的智能,如同人类懂得对简单问题无需深思;二是这是一个持续进行成本优化的过程。
展望技术演进,k0-math的推理能力将从数学领域,逐步向物理学、化学、生物医学等更多基础科学场景迁移和泛化。
克制与聚焦:月之暗面的产品哲学
回顾过去一年的发展,月之暗面的产品节奏清晰而稳健:去年同一天,Kimi Chat全面开放服务;今年10月,上线AI搜索功能;直至今日发布k0-math。三个关键节点,恰好构成一个完整的年度周期。
与行业内许多公司的快速扩张策略相比,月之暗面的产品哲学显得尤为克制。杨植麟将这种克制归因于主动的“业务减法”。团队选择聚焦于最接近AGI(通用人工智能)能力上限的核心问题,并追求极致的技术实现。同时,公司始终致力于维持“算力卡”与“顶尖人才”比例的最大化。
尽管去年行业经历了大规模团队扩张,月之暗面至今仍是头部大模型公司中人员最精干的团队,规模控制在200人以内。“我们不希望团队规模过度膨胀,那对创新是致命的。保持团队精干的最佳方式,就是在业务上做减法。”杨植麟坦言,公司早期也曾尝试多产品线并行,短期虽有效果,但最终发现,聚焦单一产品并将其做到极致才是关键。否则,创业公司将丧失其敏捷优势,变得与大型机构无异。
目前,提升用户留存率是Kimi最核心的运营目标。
预训练仍有空间,强化学习引领范式变革
面对当前业界关于缩放定律(Scaling Laws)是否触及天花板的激烈讨论,杨植麟给出了他的判断:预训练技术仍有发展空间,这一空间将在明年被充分挖掘,领先的模型会将预训练规模推向新的极限。
然而,接下来更根本的变革将来自技术范式层面——即强化学习驱动的范式迁移。这本质上仍是一种“缩放”,但方法论已发生根本改变。缩放定律是否存在上限,核心取决于数据的使用效率。过去依赖静态互联网数据的方式相对直接,而现在通过强化学习,结合人类专家的高质量标注(例如,100条精标数据就能产生巨大的杠杆效应),其余部分交由AI自主推理。这种“人类智慧+AI思考”的协同范式,其潜力上限是极高的。

