阿里巴巴开源 1100 亿参数 Qwen1.5-110B 模型,与 Meta Llama3-70B 相媲美
阿里巴巴开源1100亿参数Qwen1.5-110B模型,与Meta Llama3-70B相媲美
最近,阿里巴巴在开源社区投下了一枚“重磅冲击波”——正式发布了Qwen1.5系列的首个千亿参数模型,Qwen1.5-110B。这不仅是该系列参数规模最大的成员,其表现也相当亮眼:在基础能力评估中,足以与Meta的Llama3-70B并肩;而在Chat对话模型的专项评测中,包括MT-Bench和AlpacaEval 2.0,它的表现更是可圈可点。
核心架构与能力
那么,这个千亿参数的“大块头”有何特别之处?从架构上看,Qwen1.5-110B延续了该系列一向的Transformer解码器设计,并采用了分组查询注意力(GQA)机制。这项技术的好处很直接:它能显著提升模型在推理时的效率。此外,模型支持长达32K tokens的上下文窗口,并且保持了强大的多语言支持能力,覆盖了英语、中文、法语、西班牙语、德语、俄语、日语、韩语、越南语、阿拉伯语等多种语言。
基础能力评估:直面顶级对手
参数上去了,实际能力到底如何?为了回答这个问题,阿里将Qwen1.5-110B与近期两个备受瞩目的开源模型——Meta的Llama3-70B和Mixtral-8x22B——放在了一起进行对比。结果颇具说服力。
从上图的评估结果可以清晰地看到,这款全新的110B参数模型,在基础能力方面至少已经达到了与Llama3-70B模型相媲美的水准。值得注意的是,阿里巴巴在这次升级中并未对预训练方法进行大幅改动。这意味着,相比前代的72B模型,其性能提升的主要原因,可以明确归功于模型规模的扩大。这再次验证了一个业内的基本共识:在合理的架构下,参数规模的增加仍然是提升模型基础能力的一条有效路径。
对话模型评测:表现显著提升
除了基础能力,作为可能最终面向用户的应用形态,其Chat模型的对话表现更是关注焦点。阿里在MT-Bench和AlpacaEval 2.0这两个权威的对话评估基准上进行了测试。
结果显示,与之前发布的72B模型相比,110B模型在两个Chat基准上的表现实现了显著的跃升。这一点非常关键:它表明,即使在后续训练方法没有重大变革的情况下,一个更强大、更庞大的基础语言模型,本身就能催生出更优秀的对话模型。这为后续的模型研发策略提供了一个清晰的信号——打好基础,永远至关重要。
总结与定位
总而言之,Qwen1.5-110B作为该系列首个突破千亿参数的模型,其意义不言而喻。它不仅在与Llama3-70B这样的当代顶尖开源模型的对比中展现了出色的竞争力,而且相比自家前代72B模型,优势也相当明显。这次发布无疑进一步丰富了高端开源大模型的选择,也让后续大语言模型竞赛的格局,变得更加有趣了。

