通义千问2.5测评:18万亿字符训练的AI助手实力解析
阿里巴巴集团近期发布的通义千问2.5技术报告,标志着其大语言模型技术完成了一次系统性重塑。
通义千问2.5的核心升级体现在训练数据的规模与质量上。预训练数据量扩展至18万亿字符,并引入了多阶段强化学习技术,显著提升了模型对齐人类意图的能力。此次发布的模型家族提供了从5亿到720亿参数不等的多个版本,在数学计算、代码编程与逻辑推理等核心能力上均有显著进步,并能生成长达8000字的连贯文本。
一、训练数据的革命性扩展
通义千问2.5的基石在于其18万亿字符的高质量预训练数据。这一扩展并非简单的数量堆叠,而是通过精密的数据筛选机制实现的。
研究团队利用通义千问2系列模型作为“质检员”,对候选数据进行多维度评估与过滤,有效剔除了冗余信息,保留了高价值内容。在数学和编程等关键领域,团队整合了专用训练数据,并广泛应用合成数据,以增强数据的多样性与复杂性。
针对网络数据中电商、社交类内容偏多而科技学术内容不足的结构性问题,团队优化了数据配比,降低了重复性高、信息密度低的内容比例,提升了专业领域素材的占比,从而平衡了模型的通用对话与专业问答能力。
二、模型架构的精心设计
通义千问2.5的架构设计体现了效率与性能的平衡。模型家族包含七个不同规模的密集模型和两个为在线服务优化的混合专家模型。
密集模型采用了经过验证的Transformer解码器架构,并集成了分组查询注意力、SwiGLU激活函数和旋转位置编码等前沿技术,以提升处理效率和表达能力。
混合专家模型的核心创新在于其路由层设计,它将标准的前馈网络层替换为包含多个专家网络的层,能够根据输入动态选择最合适的专家子集进行处理,在保持高性能的同时提升了计算效率。此外,词汇表中的控制标记数量从3个大幅增加至22个,为模型执行复杂任务链提供了更丰富的指令集。
三、预训练过程的全面优化
通义千问2.5的预训练是一个分阶段、多目标协同优化的系统工程。
研究团队通过建立专门的缩放定律,系统性地确定了不同规模模型的最佳训练配置,涵盖了从数千万到百亿级参数的密集模型和混合专家模型。
长文本能力的训练采用了渐进式策略,上下文窗口从4096字符逐步扩展至32768字符。对于通义千问2.5-Turbo版本,更通过四阶段扩展策略实现了对100万字符上下文的支持。同时,团队引入了YARN和双块注意力等扩展技术,将模型的有效序列长度扩展至原来的四倍,并确保了短文本任务上的性能稳定。
四、后训练技术的双重革新
后训练阶段是塑造模型“个性”与“能力”的关键。通义千问2.5通过监督微调与强化学习的结合,实现了能力的精细化对齐。
监督微调阶段使用了超过100万个高质量样本,覆盖多个核心领域。为提升长文本生成能力,专门构建了长回答数据集;数学能力的锤炼整合了链式思维数据;编程能力的增强则依托于支持近40种编程语言的多语言代码数据。
在指令遵循训练上,团队创新性地采用了基于代码的验证框架,通过模型自生成指令和验证代码,并执行反馈来筛选高质量数据。强化学习阶段则分为离线和在线两部分,分别专注于提升复杂推理、事实准确性,以及对输出真实性、有用性等多维度的精细优化。
五、全方位性能评估
通义千问2.5在多项基准测试中展现了全方位的性能提升。
在基础能力评估中,模型在自然语言理解、数学、编程、科学知识及推理等多个基准上表现出色。例如,通义千问2.5-72B在衡量通用知识的MMLU测试中取得86.1分,在数学推理基准MATH上获得62.1分,编程基准MBPP上达到84.7分。
指令调优模型的评估更为全面。通义千问2.5-72B-Instruct在MATH测试中取得83.1分;在HumanEval和MBPP编程测试中分别达到86.6分和88.2分,处于领先地位。
在与人类偏好的对齐程度上,通义千问2.5-72B-Instruct在Arena-Hard评估中的得分从上一代的48.1分大幅跃升至81.2分,MTBench评分也达到9.35分,显示出优秀的对话与指令遵循能力。多语言评估覆盖了指令遵循、知识利用等多个维度,模型在包括低资源语言在内的多种语言任务上均展现出强大竞争力。
六、长文本处理能力的突破
处理超长文本是通义千问2.5的突出亮点。
在RULER长文本理解基准测试中,通义千问2.5-72B-Instruct取得95.1分的优异成绩,在各个上下文长度上表现稳定。即使在128K字符的超长上下文中,仍能保持88.4分的高水平。通义千问2.5-Turbo支持100万字符上下文,并在百万令牌级别的密钥检索任务中达到了100%的准确率。
LV-Eval和LongBench-Chat等测试进一步验证了其长文本能力。在256K上下文长度下,模型性能得分达到45.2,显著优于其他开源模型。为提升实际推理效率,研究团队还开发了基于稀疏注意力的优化技术,能将注意力计算负载降低12.5倍,并将首字符生成时间缩短3.2到4.3倍。
七、技术创新与未来展望
通义千问2.5的技术创新是多维度的,从数据质量控制到混合专家架构,再到多阶段强化学习对齐,共同构成了其性能支柱。
奖励模型的评估采用了更科学的框架,研究团队构建了包含RewardBench、RMB、PPE及内部中文偏好基准的多维度评估体系。结果显示,通义千问2.5-RM-72B在各个维度上均表现优异。
展望未来,研究团队计划沿三个方向持续探索:一是继续增强基础模型,通过整合更广泛、更多样化的高质量数据来突破性能天花板;二是发展统一的多模态能力,实现文本、视觉、听觉等信息的深度融合理解与生成;三是增强复杂推理能力,探索在推理过程中动态扩展计算资源的策略。
这些进展不仅推动了大语言模型技术的发展,也为AI在更广泛场景中的落地应用提供了新的可能。通义千问2.5凭借其强大的性能、灵活的架构和开源特性,已成为学术研究与产业应用的重要基石。
Q&A
Q1:通义千问2.5相比之前版本有哪些主要改进?
主要改进集中在三个方面:一是训练数据规模从7万亿字符扩展至18万亿字符,知识储备大幅增强;二是引入了多阶段强化学习技术,显著提升了与人类意图的对齐能力和交互质量;三是支持生成长达8000字的文本,并在数学、编程等核心能力上实现了跨越式进步。
Q2:通义千问2.5能处理多长的文本内容?
标准版本支持最长128K字符的上下文处理。而通义千问2.5-Turbo版本则实现了对高达100万字符上下文长度的支持,并在相应的长文本检索任务中展现了极高的准确性。
Q3:普通用户如何使用通义千问2.5?
通义千问2.5提供了从5亿到720亿参数的多个开源版本,可通过Hugging Face、ModelScope等主流平台获取。对于商业应用,阿里云模型工作室提供了通义千问2.5-Turbo和通义千问2.5-Plus等高性能版本的服务。
