Ollama部署Qwen2.5大模型:Windows11实战指南
0、前言
本文完整记录了在 Windows 11 本地环境下,使用 Ollama 部署 Qwen2.5 大模型并实现 API 调用的全过程。无需独立显卡即可运行,同时保障数据隐私——所有计算和存储均在本地完成。
通过本部署实践,你将系统掌握以下核心能力:
Ollama的功能定位、安装方法与基本操作;Modelfile的配置项解析与实际作用;- 利用
ModelScope高效获取模型文件; - 通过
Notebook在云端免配置体验大模型; - 整合上述工具实现本地大模型部署,并成功通过 API 远程调用。
下面直接进入实战环节。
1、环境与准备
- Win11:Windows 11 专业版 25H2
- CPU:Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz (2.21 GHz)
- 内存:16.0 GB
- 显卡:GTX1050Ti(实际部署中几乎未使用,显存相对有限)
- Ollama: 0.17.7
- 大模型:
- qwen2.5-3b-instruct-q4_k_m
- qwen2.5-7b-instruct-q4_k_m
前置依赖检查
PowerShell(Win11 内置,无需额外安装)Git(可选,用于代码下载)Python(仅当使用ModelScope CLI时需要,纯浏览器下载可跳过)
2、核心概念速览
2.1、模型文件名 qwen2.5-3b-instruct-q4_k_m.gguf 的含义?
典型文件名结构为:qwen2.5-3b-instruct-q4_k_m.gguf。拆解后各字段意义如下。
instruct 表示模型经过指令微调,适用于对话场景;若为 base 版则适合续写或二次微调,直接对话效果较差。
1)q + 数字:每个参数占用的比特数。
- 数值越小 = 文件体积小 = 推理速度快 = 精度略有下降
- 数值越大 = 文件体积大 = 推理速度慢 = 精度更高
- 业内共识:4-bit (
q4) 是性价比最优选择,精度损失几乎不可感知,体积却缩减一半。
2)k:表示采用 K-quants 量化技术(比旧版 q4_0 更智能的压缩算法)。
3)m / s / l:分别代表 Small (小), Medium (中), Large (大)。
q4_k_s:更小,但精度略低。q4_k_m:标准版,平衡最佳,推荐首选。q4_k_l:更大,精度稍高(显存占用也更高)。
2.2、Modelfile 的基本结构及含义
FROMSYSTEM PARAMETER TEMPLATE ADAPTER PROJECTOR MESSAGE LICENSE
各指令释义:
FROM: 指定基础模型(必选)。 SYSTEM : 设定系统提示词,定义角色或行为规范。 PARAMETER : 配置推理参数,如温度、上下文长度等。 TEMPLATE : 定义对话模板的格式。 ADAPTER : 引入 LoRA 适配器文件,用于微调。 PROJECTOR : 加载多模态投影器,使模型支持图像理解。 MESSAGE : 预设对话示例,实现少样本提示(Few-shot)。 LICENSE : 声明模型许可协议。
日常最精简的常用配置:
FROM llama3 # 1. 选择基座模型 SYSTEM "你是个诗人" # 2. 设定角色人设 PARAMETER temperature 0.8 # 3. 调整推理参数
2.3、Notebook 是什么
本文虽聚焦本地部署,但若本地资源紧张(例如显存不足),可借助 ModelScope Notebook 在云端免费体验大模型,无需操心硬件配置。
ModelScope Notebook 是一款云端机器学习开发 IDE,提供交互式编程环境并内置限时免费算力额度,直接在浏览器中运行模型,对新手极为友好。
2.4、运行大模型的通俗理解
将大模型运行类比为“搬家”,便于快速理解:
- 量化等级(Quantization) = 家具打包压缩程度(压得越紧,搬运越快,但可能轻微损坏)
- 推理框架 = 运输工具选择(Ollama如同专用搬家车)
- 上下文长度(Context Length) = 单次搬运量(记忆容量)
3、实战部署:安装与运行
3.1、安装 Ollama
Ollama 是一个开源工具平台,专为本地运行大语言模型(LLM)设计,可视为“大模型的 Docker”。
从官网下载后安装,在终端验证:
# 查看版本号 ollama -v ollama version is 0.17.7
3.2、方式一:一键拉取(官方推荐),Ollama 界面/命令行拉取
通过 Ollama 直接拉取模型,无需手动创建 Modelfile,方便快捷。
# 下载并运行模型 ollama run qwen2.5:3b
3.3、方式二:自定义导入 (进阶),下载 gguf 文件自行配置
1)从 ModelScope 下载 gguf 文件
通过 modelscope 在浏览器直接下载模型。此处以 Qwen2.5-3B-Instruct-GGUF 为例(实际部署亦采用该模型)。
进入模型文件页,选择类似 qwen2.5-3b-instruct-q4_k_m.gguf 的文件下载即可。
2)编写 Modelfile 文件
Modelfile 是 Ollama 用于自定义大模型推理参数的文件,类似 Dockerfile。若仅需简单对话,Ollama 官方库的默认模板已适配 Qwen 系列,手动指定 TEMPLATE 仅在特殊对话格式或微调时必需。详细说明见【4.3、Modelfile 的基本结构及含义】。
新建文件命名为 Modelfile,内容如下:
FROM "G:AIModelfilesqwen2.5-3bqwen2.5-3b-instruct-q4_k_m.gguf"
TEMPLATE """{{- if .Messages }}
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1 }}
{{- if eq .Role "user" }}<|im_start|>user
{{ .Content }}<|im_end|>
{{ else if eq .Role "assistant" }}<|im_start|>assistant
{{ .Content }}<|im_end|>
{{ else if eq .Role "system" }}<|im_start|>system
{{ .Content }}<|im_end|>
{{ end }}
{{- if $last }}<|im_start|>assistant
{{ end }}
{{- end }}
{{- else }}
{{- if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ end }}"""
PARAMETER stop <|im_end|>
PARAMETER stop <|im_start|>
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
LICENSE """https://huggingface.co/Qwen/Qwen2.5-3B-Instruct/blob/main/LICENSE"""
最简版本(仅包含 FROM 一行,无法正常对话):
FROM "F:\Downloadsqwen2.5-3b-instruct-q4_k_m.gguf"
3)创建模型
打开 Powershell,切换至 Modelfile 所在目录,执行以下命令:
# 将 GGUF 文件打包为 Ollama 模型 ollama create qwen2.5:3b -f Modelfile # 或使用绝对路径 ollama create qwen2.5:3b -f G:AIModelfilesqwen2.5-3bModelfile
4)运行模型
Ollama 默认自动检测并优先使用GPU。为优化资源分配,若模型闲置超过 5 分钟,会自动从内存卸载;下次请求时会重新加载(首次响应可能略慢)。
ollama run qwen2.5:3b
查看大模型运行状态:
SIZE: 占用内存大小PROCESSOR:100% CPU表示模型完全在 CPU 上运行,未使用 GPU 加速(GTX1050Ti 显存仅 4GB,无法承载)CONTEXT:上下文窗口大小,即当前会话保留的“记忆”长度(以 Token 计)。数值越大,内存占用越高。UNTIL(自动卸载倒计时):若后续无人使用,Ollama 将在 2 分钟后自动从内存卸载以释放资源。
5)示例:Qwen2.5-7B 的配置
文件名:qwen2.5-7b-instruct-q4_k_m.gguf
FROM ./qwen2.5-7b-instruct-q4_k_m.gguf
TEMPLATE """{{- if .System }}
<|im_start|>system
{{ .System }}<|im_end|>
{{- end }}
<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""
PARAMETER stop <|im_end|>
PARAMETER stop <|im_start|>
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
SYSTEM "你是一个有帮助的AI助手。"
4、通过API访问大模型
4.1、启动服务
# 运行命令查看端口 ollama serve # 返回信息:Error: listen tcp 127.0.0.1:11434: bind: Only one usage of each socket address (protocol/network address/port) is normally permitted.
默认情况下,Ollama 仅接受本机连接,拒绝局域网 IP(如 192.168.x.x)。如需局域网内其他设备访问,需配置环境变量。Windows 环境下按图示步骤操作。
4.2、Powershell 中测试接口
# Windows Powershell
curl http://192.168.2.111:11434/api/generate -d "{"model": "qwen2.5:3b", "prompt": "hello"}"
curl http://192.168.31.87:11434/api/tags
4.3、后台方式运行技巧
Start-Process ollama -ArgumentList "run","qwen2.5:3b" -WindowStyle Hidden
此命令使模型在后台静默运行,避免弹出命令行窗口干扰。
5、考试的常用命令速查表
Ollama 核心命令,掌握以下即可:
# 查看帮助 ollama -h # 查看本地已下载模型列表 ollama list # 下载并运行模型(交互模式) ollama run qwen2.5:3b # 单次问答(非交互) ollama run qwen2.5:3b "你好,请介绍一下你自己" # 删除模型 ollama rm <模型名> # 启动后台服务 ollama serve # 查看模型详情 ollama show <模型名> # 查看正在运行的模型 ollama ps # 停止指定模型 ollama stop qwen2.5:3b
6、附录与参考资料
ModelScope Pip 安装详解
# 安装python(先确认已有) python -V Python 3.11.9 # 安装魔搭库 pip install modelscope # 下载完整模型库(以Qwen2.5-3B-Instruct-GGUF为例) modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF # 下载单个文件到指定本地文件夹(以下载README.md到当前路径下“dir”目录为例) modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF README.md --local_dir ./dir








