中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目
中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目
最近,中国电信人工智能研究院正式发布了其“复杂推理大模型”TeleAI-t1-preview,并即将在天翼 AI 开放平台上线。这款新模型有点东西,它采用了强化学习训练,并在训练中引入了探索、反思等思考范式。这么做的直接效果是什么?就是大幅提升了模型在面对逻辑推理、数学推导这类烧脑难题时的准确性。
光说提升可能不够直观,看看官方公布的测试结果就清楚了。在美国数学竞赛 AIME 2024 和 MATH500 这两项权威数学基准评测中,TeleAI-t1-preview 分别拿到了 60 分和 93.8 分的成绩。这个分数意味着它大幅超越了 OpenAI o1-preview、GPT-4o 等业界标杆模型。不仅如此,在考验深度专业知识的 GPQA Diamond 研究生级问答测试中,它的得分也超过了 GPT-4o,性能水平已经能和 Claude 3.5 Sonnet 比肩了。
更绝的还在后面。评测人员做了个有趣的测试:把一道来自中国古代数学经典《九章算术》的题目扔给 TeleAI-t1-preview。结果如何?模型的表现堪称一场精彩的“古今对话”示范。它首先对文言文题目进行了准确理解和语义简化,然后将其转换成现代汉语,最后才一步步展开数学推导,并给出了正确答案。
这个过程听起来简单,实则包含了不少技术巧思。模型在解题时,能够将形象思维与抽象思维结合起来,先对题目描述的场景进行具象化思考,以此来辅助理解题意。更值得一提的是,它甚至能严谨地处理古今单位换算这类细节问题,这可不是简单匹配关键词就能做到的。
那么,这款模型为何能在复杂推理上表现突出?关键在于其背后引入的一套创新训练策略,这套策略的核心目标就一个:确保思考推理过程既准确又有效。具体来看,可以分为几个步步为营的阶段:
- 数据准备阶段: 万事开头难,打好基础是关键。团队收集并构建了一个以数学为核心、同时涵盖多学科的高质量推理数据集。这么做的好处是能让模型触类旁通,适应不同类型、不同风格的推理任务。
- Judge Model(评估模型): 相当于给模型配了一位“严师”。专门训练了一个 Judge Model,它的职责就是分析和评估模型“长思考链”的正确性。当模型推理“跑偏”时,这位“严师”就能及时指出,为模型的反思和修正提供精准指导。
- SFT(监督微调)阶段: 这个阶段是精雕细琢。团队用 MCTS(蒙特卡洛树搜索)来构造高质量的长推理数据,同时根据每个推理步骤的准确率和整体解决方案的长度,筛选出最优的完整路径。这样做,既能保证最终答案的准确性,又能有效拉长思考链路,得到更细致、更具解释性的推理过程。同时,Judge Model 会介入,对那些正确率偏低的推理路径进行分析,引导模型对错误步骤进行反思和修正。经过这番“打磨”,最终构造出高质量的思维链数据用于 SFT 训练。
- 强化学习阶段: 最后的“冲刺”阶段。为了提供足够准确的反馈信号,团队额外构造了一个 Rule-based Reward Model(基于规则的奖励模型)。通过在线强化学习算法,模型在这个清晰信号的引导下,逻辑推理能力得到了进一步的淬炼和提升。
说到底,这一套组合拳下来,目标非常明确:不仅仅是让模型“算得快”,更是要让它的思考过程“走得稳、想得深”,最终在需要深度逻辑的复杂任务上,展现出真正可靠的实力。

