阿里巴巴开源 1100 亿参数 Qwen1.5-110B 模型，与 Meta Llama3-70B 相媲美

2026-05-02阅读 0热度 0

其他

阿里巴巴开源1100亿参数Qwen1.5-110B模型，与Meta Llama3-70B相媲美

最近，阿里巴巴在开源社区投下了一枚“重磅冲击波”——正式发布了Qwen1.5系列的首个千亿参数模型，Qwen1.5-110B。这不仅是该系列参数规模最大的成员，其表现也相当亮眼：在基础能力评估中，足以与Meta的Llama3-70B并肩；而在Chat对话模型的专项评测中，包括MT-Bench和AlpacaEval 2.0，它的表现更是可圈可点。

核心架构与能力

那么，这个千亿参数的“大块头”有何特别之处？从架构上看，Qwen1.5-110B延续了该系列一向的Transformer解码器设计，并采用了分组查询注意力（GQA）机制。这项技术的好处很直接：它能显著提升模型在推理时的效率。此外，模型支持长达32K tokens的上下文窗口，并且保持了强大的多语言支持能力，覆盖了英语、中文、法语、西班牙语、德语、俄语、日语、韩语、越南语、阿拉伯语等多种语言。

基础能力评估：直面顶级对手

参数上去了，实际能力到底如何？为了回答这个问题，阿里将Qwen1.5-110B与近期两个备受瞩目的开源模型——Meta的Llama3-70B和Mixtral-8x22B——放在了一起进行对比。结果颇具说服力。

从上图的评估结果可以清晰地看到，这款全新的110B参数模型，在基础能力方面至少已经达到了与Llama3-70B模型相媲美的水准。值得注意的是，阿里巴巴在这次升级中并未对预训练方法进行大幅改动。这意味着，相比前代的72B模型，其性能提升的主要原因，可以明确归功于模型规模的扩大。这再次验证了一个业内的基本共识：在合理的架构下，参数规模的增加仍然是提升模型基础能力的一条有效路径。

对话模型评测：表现显著提升

除了基础能力，作为可能最终面向用户的应用形态，其Chat模型的对话表现更是关注焦点。阿里在MT-Bench和AlpacaEval 2.0这两个权威的对话评估基准上进行了测试。

结果显示，与之前发布的72B模型相比，110B模型在两个Chat基准上的表现实现了显著的跃升。这一点非常关键：它表明，即使在后续训练方法没有重大变革的情况下，一个更强大、更庞大的基础语言模型，本身就能催生出更优秀的对话模型。这为后续的模型研发策略提供了一个清晰的信号——打好基础，永远至关重要。

总结与定位

总而言之，Qwen1.5-110B作为该系列首个突破千亿参数的模型，其意义不言而喻。它不仅在与Llama3-70B这样的当代顶尖开源模型的对比中展现了出色的竞争力，而且相比自家前代72B模型，优势也相当明显。这次发布无疑进一步丰富了高端开源大模型的选择，也让后续大语言模型竞赛的格局，变得更加有趣了。

阿里巴巴开源 1100 亿参数 Qwen1.5-110B 模型，与 Meta Llama3-70B 相媲美