中国电信发布“复杂推理大模型”TeleAI-t1-preview：能解《九章算术》题目

2026-05-01阅读 0热度 0

最近，中国电信人工智能研究院正式发布了其“复杂推理大模型”TeleAI-t1-preview，并即将在天翼 AI 开放平台上线。这款新模型有点东西，它采用了强化学习训练，并在训练中引入了探索、反思等思考范式。这么做的直接效果是什么？就是大幅提升了模型在面对逻辑推理、数学推导这类烧脑难题时的准确性。

光说提升可能不够直观，看看官方公布的测试结果就清楚了。在美国数学竞赛 AIME 2024 和 MATH500 这两项权威数学基准评测中，TeleAI-t1-preview 分别拿到了 60 分和 93.8 分的成绩。这个分数意味着它大幅超越了 OpenAI o1-preview、GPT-4o 等业界标杆模型。不仅如此，在考验深度专业知识的 GPQA Diamond 研究生级问答测试中，它的得分也超过了 GPT-4o，性能水平已经能和 Claude 3.5 Sonnet 比肩了。

更绝的还在后面。评测人员做了个有趣的测试：把一道来自中国古代数学经典《九章算术》的题目扔给 TeleAI-t1-preview。结果如何？模型的表现堪称一场精彩的“古今对话”示范。它首先对文言文题目进行了准确理解和语义简化，然后将其转换成现代汉语，最后才一步步展开数学推导，并给出了正确答案。

这个过程听起来简单，实则包含了不少技术巧思。模型在解题时，能够将形象思维与抽象思维结合起来，先对题目描述的场景进行具象化思考，以此来辅助理解题意。更值得一提的是，它甚至能严谨地处理古今单位换算这类细节问题，这可不是简单匹配关键词就能做到的。

那么，这款模型为何能在复杂推理上表现突出？关键在于其背后引入的一套创新训练策略，这套策略的核心目标就一个：确保思考推理过程既准确又有效。具体来看，可以分为几个步步为营的阶段：

数据准备阶段： 万事开头难，打好基础是关键。团队收集并构建了一个以数学为核心、同时涵盖多学科的高质量推理数据集。这么做的好处是能让模型触类旁通，适应不同类型、不同风格的推理任务。
Judge Model（评估模型）： 相当于给模型配了一位“严师”。专门训练了一个 Judge Model，它的职责就是分析和评估模型“长思考链”的正确性。当模型推理“跑偏”时，这位“严师”就能及时指出，为模型的反思和修正提供精准指导。
SFT（监督微调）阶段： 这个阶段是精雕细琢。团队用 MCTS（蒙特卡洛树搜索）来构造高质量的长推理数据，同时根据每个推理步骤的准确率和整体解决方案的长度，筛选出最优的完整路径。这样做，既能保证最终答案的准确性，又能有效拉长思考链路，得到更细致、更具解释性的推理过程。同时，Judge Model 会介入，对那些正确率偏低的推理路径进行分析，引导模型对错误步骤进行反思和修正。经过这番“打磨”，最终构造出高质量的思维链数据用于 SFT 训练。
强化学习阶段： 最后的“冲刺”阶段。为了提供足够准确的反馈信号，团队额外构造了一个 Rule-based Reward Model（基于规则的奖励模型）。通过在线强化学习算法，模型在这个清晰信号的引导下，逻辑推理能力得到了进一步的淬炼和提升。

说到底，这一套组合拳下来，目标非常明确：不仅仅是让模型“算得快”，更是要让它的思考过程“走得稳、想得深”，最终在需要深度逻辑的复杂任务上，展现出真正可靠的实力。

中国电信发布“复杂推理大模型”TeleAI-t1-preview：能解《九章算术》题目

中国电信发布“复杂推理大模型”TeleAI-t1-preview：能解《九章算术》题目

相关阅读

最新教程

最新资讯