2024年AI大模型深度测评:零一万物实力解析与排行榜
11月6日,零一万物正式开源发布“Yi”系列预训练大模型,首期开放Yi-6B与Yi-34B两个版本。此次发布迅速在开源社区获得高度关注,其基准评测成绩显著超越了行业预期。
根据Hugging Face英文开源社区与C-Eval中文评测的最新榜单数据,Yi-34B预训练模型在多项关键性能指标上均达到SOTA水平,成为当前全球开源大模型领域的“双料冠军”。其综合表现超越了包括LLaMA2、Falcon在内的多个主流开源模型。
尤为关键的是,Yi-34B是首个登顶Hugging Face全球开源模型排行榜的国产模型,标志着中国在开源大模型技术领域取得了一项里程碑式的突破。
以少胜多:登顶全球中英文权威大模型榜单首位
具体分析Hugging Face的英文预训练开源模型排名,Yi-34B的表现极具突破性。它以70.72的综合得分位列全球第一,实现了一次典型的“效率超越”——其参数量显著低于LLaMA2-70B和Falcon-180B等竞争对手,却在综合性能上实现了反超。
这体现了其卓越的模型效率。Yi-34B的参数量不足LLaMA2-70B的一半,仅为Falcon-180B的五分之一左右。正是在这种更为紧凑的架构下,它在多项评测任务中超越了当时的领先者,稳固跻身全球顶级开源基础模型之列。
来源:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
作为国产模型,Yi-34B在中文语境下的优势更为突出。它在C-Eval中文权威榜单上超越了所有开源模型,展现出对中文语言结构和语义的深度理解。相较于GPT-4,Yi-34B在CMMLU、E-Eval、Gaokao等核心中文评测集上建立了显著优势,这使其能更精准地适配中文应用场景的实际需求。
从综合能力评估来看,在衡量大模型核心素质的“MMLU”(大规模多任务语言理解)和BBH等评测集上,Yi-34B的表现最为全面。无论是通用知识、复杂推理还是深度阅读理解,其评测结果均领先,这与Hugging Face的排名结论高度一致。
当然,模型也存在可优化的领域。与LLaMA2类似,Yi系列在GSM8k(数学推理)和MBPP(代码生成)等专项评测上的表现与GPT系列模型尚有差距。零一万物表示,后续将发布专注于代码和数学能力持续训练的专项模型,以完善其整体能力矩阵。
上下文窗口突破200K,并全面开源
除了基础性能,此次发布的另一核心亮点是上下文窗口长度。对于大模型的落地应用,文本处理长度是关键制约因素。此次开源的Yi-34B版本,直接支持高达200K的超长上下文窗口,这在当时创下了全球纪录。
200K上下文窗口意味着什么?它大约可处理40万汉字长度的连续文本输入,其容量相当于一整部《儒林外史》。作为参照,OpenAI的GPT-4上下文窗口为32K,仅能处理约2.5万字。这种数量级的提升,为长文档分析、复杂多轮对话及深度逻辑推理任务开辟了全新的应用空间。