菜鸟AI AI提示词 · 教程 · 资讯

首页>新手教程

Ollama部署Qwen2.5大模型：Windows11实战指南

2026-06-20阅读 0热度 0

ai

0、前言

本文完整记录了在 Windows 11 本地环境下，使用 Ollama 部署 Qwen2.5 大模型并实现 API 调用的全过程。无需独立显卡即可运行，同时保障数据隐私——所有计算和存储均在本地完成。

通过本部署实践，你将系统掌握以下核心能力：

Ollama 的功能定位、安装方法与基本操作；
Modelfile 的配置项解析与实际作用；
利用 ModelScope 高效获取模型文件；
通过 Notebook 在云端免配置体验大模型；
整合上述工具实现本地大模型部署，并成功通过 API 远程调用。

下面直接进入实战环节。

1、环境与准备

Win11：Windows 11 专业版 25H2
CPU：Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz (2.21 GHz)
内存：16.0 GB
显卡：GTX1050Ti（实际部署中几乎未使用，显存相对有限）
Ollama： 0.17.7
大模型：
- qwen2.5-3b-instruct-q4_k_m
- qwen2.5-7b-instruct-q4_k_m

前置依赖检查

PowerShell (Win11 内置，无需额外安装)
Git (可选，用于代码下载)
Python (仅当使用 ModelScope CLI 时需要，纯浏览器下载可跳过)

2、核心概念速览

2.1、模型文件名 qwen2.5-3b-instruct-q4_k_m.gguf 的含义？

典型文件名结构为：qwen2.5-3b-instruct-q4_k_m.gguf。拆解后各字段意义如下。

instruct 表示模型经过指令微调，适用于对话场景；若为 base 版则适合续写或二次微调，直接对话效果较差。

1）q + 数字：每个参数占用的比特数。

数值越小 = 文件体积小 = 推理速度快 = 精度略有下降
数值越大 = 文件体积大 = 推理速度慢 = 精度更高
业内共识：4-bit (q4 ) 是性价比最优选择，精度损失几乎不可感知，体积却缩减一半。

2）k：表示采用 K-quants 量化技术（比旧版 q4_0 更智能的压缩算法）。

3）m / s / l：分别代表 Small (小), Medium (中), Large (大)。

q4_k_s：更小，但精度略低。
q4_k_m：标准版，平衡最佳，推荐首选。
q4_k_l：更大，精度稍高（显存占用也更高）。

2.2、Modelfile 的基本结构及含义

FROM 
SYSTEM 
PARAMETER  
TEMPLATE