650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目

2025-04-25阅读 0热度 0
开源 git 工具 ai gemini

明敏 发自 凹非寺量子位 | 公众号 qbitai

650亿参数大模型的预训练方案一经发布便开源,训练速度较传统方案提升了38%。这就是由Colossal-AI最新推出的类LLaMA基础大模型预训练方案。

650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目在“百模大战”的背景下,拥有自家大模型被视为核心竞争力。在这个关键时刻,愿意开源大模型的公司寥寥无几。然而,从头训练一个大模型对技术和资金要求极高。因此,Colossal-AI的最新开源举措可谓是顺应了当前形势的需求。而且它还允许商业使用,仅需4步即可开箱即用。

具体项目内容如下,请继续阅读:

开源地址:https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530

仅需32张A100/A800即可使用。自从Meta开源LLaMA以来,掀起了一波微调项目的热潮,如Alpaca、Vicuna、ColossalChat等都是基于此构建的。

650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目然而,LLaMA只开源了模型权重且限制商业使用,微调能够提升和注入的知识与能力也相对有限。对于真正希望投身大模型浪潮的企业来说,训练自己的核心大模型至关重要。

开源社区此前已推出了一系列工作:

RedPajama:开源可商用类LLaMA数据集(无训练代码和模型)OpenLLaMA:开源可商用类LLaMA 7B/13B模型,使用EasyLM基于JAX和TPU训练Falcon:开源可商用类LLaMA 7B/40B模型(无训练代码)但这些还不够,因为对于最主流的PyTorch+GPU生态,仍缺乏高效、可靠、易用的类LLaMA基础大模型预训练方案。

因此,Colossal-AI交出了最新的开源答案。

仅需32张A100/A800,即可完成650亿参数类LLaMA大模型预训练,训练速度提升38%。

650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目而像原生PyTorch、FSDP等,则因显存溢出无法运行该任务。Hugging Face accelerate、DeepSpeed、Megatron-LM也未对LLaMA预训练进行官方支持。

项目上手非常简单,只需四步:

1、安装Colossal-AI2、安装其他依赖项3、数据集4、运行命令具体代码如下:

第一步、安装Colossal-AI。

代码语言:javascript代码运行次数:0运行复制```javascriptgit clone -b example/llama https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530.gitcd ColossalAI# install and enable CUDA kernel fusionCUDA_EXT=1 pip install .

第二步、安装其他依赖项。<p>代码语言:javascript代码运行次数:0<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="<a href="https://www.php.cn/link/c9041cfd2a40932691855abd98fd219a">http://www.w3.org/2000/svg"><path</a> d="M6.66666 10.9999L10.6667 7.99992L6.66666 4.99992V10.9999ZM7.99999 1.33325C4.31999 1.33325 1.33333 4.31992 1.33333 7.99992C1.33333 11.6799 4.31999 14.6666 7.99999 14.6666C11.68 14.6666 14.6667 11.6799 14.6667 7.99992C14.6667 4.31992 11.68 1.33325 7.99999 1.33325ZM7.99999 13.3333C5.05999 13.3333 2.66666 10.9399 2.66666 7.99992C2.66666 5.05992 5.05999 2.66659 7.99999 2.66659C10.94 2.66659 13.3333 5.05992 13.3333 7.99992C13.3333 10.9399 10.94 13.3333 7.99999 13.3333Z" fill="currentcolor"></path></svg>运行<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="<a href="https://www.php.cn/link/c9041cfd2a40932691855abd98fd219a">http://www.w3.org/2000/svg"><path</a> clip-rule="evenodd" d="M4.5 15.5V3.5H14.5V15.5H4.5ZM12.5 5.5H6.5V13.5H12.5V5.5ZM9.5 2.5H3.5V12.5H1.5V0.5H11.5V2.5H9.5Z" fill="currentcolor" fill-rule="evenodd"></path></svg>复制javascript cd examples/language/llama# install other dependenciespip install -r requirements.txt# use flash attentionpip install xformers</code>
登录后复制
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策