Ollama核心概念详解：新手入门必读指南

2026-06-03阅读 0热度 0

机器学习

在本地部署大语言模型时，Ollama 几乎是必备工具。它是一个轻量级框架，专注于模型的加载、推理与生成，支持多种自然语言处理任务，无需联网即可与开源模型直接交互。以下拆解其核心概念，帮你快速建立认知。

1. 模型（Model）

模型是 Ollama 的核心。这些预训练的机器学习模型可处理文本生成、摘要、情感分析、对话生成等任务。你可以从官方模型库中拉取并运行各类开源模型——这是整个系统的“引擎”。

标识符：每个模型都有名称和标签，格式为 模型名:标签。例如 llama3:8b、qwen:7b、mistral:latest——latest 通常代表默认或最新版本。

支持的模型种类丰富，常见的有：

deepseek-v3：深度求索出品，专攻文本生成。
LLama2：Meta 的大语言模型，文本生成任务的经典选择。
GPT：OpenAI 的 GPT 系列，对话生成与文本推理表现突出。
BERT：句子理解与问答系统的老牌模型。
其他自定义模型：可上传自有模型，通过 Ollama 进行推理。

模型主要执行两类操作：推理——根据输入产生输出；微调——用自定义数据在已有模型上继续训练，使其更贴合特定场景。模型本质上是海量参数构成的神经网络，通过大规模文本训练习得语言规律，再高效执行推理。

完整模型列表可在此查看：https://ollama.com/library。

进入具体模型页，会显示下载命令：

下表列出常见模型的下载命令，便于快速检索：

模型	参数量	大小	下载命令
Llama 3.3	70B	43GB	`ollama run llama3.3`
Llama 3.2	3B	2.0GB	`ollama run llama3.2`
Llama 3.2	1B	1.3GB	`ollama run llama3.2:1b`
Llama 3.2 Vision	11B	7.9GB	`ollama run llama3.2-vision`
Llama 3.2 Vision	90B	55GB	`ollama run llama3.2-vision:90b`
Llama 3.1	8B	4.7GB	`ollama run llama3.1`
Llama 3.1	405B	231GB	`ollama run llama3.1:405b`
Phi 4	14B	9.1GB	`ollama run phi4`
Phi 3 Mini	3.8B	2.3GB	`ollama run phi3`
Gemma 2	2B	1.6GB	`ollama run gemma2:2b`
Gemma 2	9B	5.5GB	`ollama run gemma2`
Gemma 2	27B	16GB	`ollama run gemma2:27b`
Mistral	7B	4.1GB	`ollama run mistral`
Moondream 2	1.4B	829MB	`ollama run moondream`
Neural Chat	7B	4.1GB	`ollama run neural-chat`
Starling	7B	4.1GB	`ollama run starling-lm`
Code Llama	7B	3.8GB	`ollama run codellama`
Llama 2 Uncensored	7B	3.8GB	`ollama run llama2-uncensored`
LLaVA	7B	4.5GB	`ollama run lla va`
Solar	10.7B	6.1GB	`ollama run solar`

核心操作命令

拉取模型：ollama pull <模型名>（如 ollama pull llama3）。从官方库下载到本地。
运行模型：ollama run <模型名>。加载模型到内存，在终端启动交互式对话。
创建模型：ollama create <新模型名> -f ./Modelfile。基于 Modelfile 自定义模型。
列出模型：ollama list。查看本地已存储的模型。
删除模型：ollama rm <模型名>。

2. 任务（Task）

Ollama 支持多种任务类型，每种对应模型的不同用法：

对话生成：与模型进行多轮交互。
文本生成：根据提示撰写文章、故事等。
情感分析：判断文本情感倾向（正面、负面或中立）。
文本摘要：将长文本压缩为要点。
翻译：实现语言转换。

通过命令行指定任务，载入对应模型即可完成操作。

3. 推理（Inference）

推理即向模型输入数据，模型经计算后输出结果。这是 Ollama 最核心的交互方式。流程简单：你提供文本（问题、提示或对话），模型通过内部神经网络计算后返回答案、文章片段或翻译内容。

Ollama 通过 CLI 或 API 与本地模型交互，高效完成推理任务。

4. 微调（Fine-tuning）

微调指在预训练模型基础上，用私有数据再次训练，提升其在特定领域的表现精度。Ollama 支持此功能，操作步骤大致如下：

准备数据集：领域相关的文本或 JSON 格式数据。
加载预训练模型：选择一个基础模型，如 LLama2 或 GPT。
训练：用自己的数据集对模型进行额外训练。
保存和部署：训练后的模型可持久化存储，直接用于后续推理。

这样模型在处理专业问题时更具针对性。

5. API 服务

Ollama 不仅提供命令行工具，后台还运行着一个本地服务器。执行 ollama serve 或首次运行 ollama run 时，服务自动启动，默认监听 127.0.0.1:11434。它提供 RESTful API，允许通过 HTTP 请求与模型交互，方便用 Python、JavaScript 等语言调用本地大模型。

一个简单的 API 调用示例：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "为什么天空是蓝色的？"
}'

6. Modelfile

模型文件：Ollama 使用 Modelfile 定义和创建模型——类似 Docker 的 Dockerfile。你可以基于现有模型定制参数，例如调整温度、设置系统提示词，或导入 GGUF 格式的模型文件。官方模型库列出支持的模型架构（如 Llama 3、Qwen 2、Mistral、Phi-3 等），直接搜索即可下载。

Modelfile 的关键参数：

FROM：指定基础模型（需本地已拉取）或模型文件路径。
SYSTEM：设置系统提示词，定义模型行为与角色。
PARAMETER：运行参数，如 temperature（控制创造力）、top_p、num_ctx（上下文长度）。
TEMPLATE：提示词的模板格式。

7. 上下文

对话中的上下文指模型能“记住”的先前对话内容。上下文长度由 num_ctx 控制，决定模型在处理新请求时可参考的历史文本量。上下文越长，内存占用越高——需根据机器配置权衡。

8. 量化

为减少内存占用并加速推理，通常会对模型进行量化。模型名称中常包含表示量化级别的字母，如 q4_0、q5_1、q8。数值越小，内存占用越低，但精度略有损失；数值越大越接近原始模型。GGUF 格式的模型普遍采用这种命名规则。

总结

以上就是 Ollama 的八个核心概念：模型、任务、推理、微调、API 服务、Modelfile、上下文和量化。掌握这些，你就能顺畅地操作本地大模型。从拉取模型起步，逐步尝试微调和定制，会发现本地部署并不复杂。