Ollama核心概念详解:新手入门必读指南
在本地部署大语言模型时,Ollama 几乎是必备工具。它是一个轻量级框架,专注于模型的加载、推理与生成,支持多种自然语言处理任务,无需联网即可与开源模型直接交互。以下拆解其核心概念,帮你快速建立认知。
1. 模型(Model)
模型是 Ollama 的核心。这些预训练的机器学习模型可处理文本生成、摘要、情感分析、对话生成等任务。你可以从官方模型库中拉取并运行各类开源模型——这是整个系统的“引擎”。
标识符:每个模型都有名称和标签,格式为 模型名:标签。例如 llama3:8b、qwen:7b、mistral:latest——latest 通常代表默认或最新版本。
支持的模型种类丰富,常见的有:
- deepseek-v3:深度求索出品,专攻文本生成。
- LLama2:Meta 的大语言模型,文本生成任务的经典选择。
- GPT:OpenAI 的 GPT 系列,对话生成与文本推理表现突出。
- BERT:句子理解与问答系统的老牌模型。
- 其他自定义模型:可上传自有模型,通过 Ollama 进行推理。
模型主要执行两类操作:推理——根据输入产生输出;微调——用自定义数据在已有模型上继续训练,使其更贴合特定场景。模型本质上是海量参数构成的神经网络,通过大规模文本训练习得语言规律,再高效执行推理。
完整模型列表可在此查看:https://ollama.com/library。
进入具体模型页,会显示下载命令:
下表列出常见模型的下载命令,便于快速检索:
| 模型 | 参数量 | 大小 | 下载命令 |
|---|---|---|---|
| Llama 3.3 | 70B | 43GB | ollama run llama3.3 |
| Llama 3.2 | 3B | 2.0GB | ollama run llama3.2 |
| Llama 3.2 | 1B | 1.3GB | ollama run llama3.2:1b |
| Llama 3.2 Vision | 11B | 7.9GB | ollama run llama3.2-vision |
| Llama 3.2 Vision | 90B | 55GB | ollama run llama3.2-vision:90b |
| Llama 3.1 | 8B | 4.7GB | ollama run llama3.1 |
| Llama 3.1 | 405B | 231GB | ollama run llama3.1:405b |
| Phi 4 | 14B | 9.1GB | ollama run phi4 |
| Phi 3 Mini | 3.8B | 2.3GB | ollama run phi3 |
| Gemma 2 | 2B | 1.6GB | ollama run gemma2:2b |
| Gemma 2 | 9B | 5.5GB | ollama run gemma2 |
| Gemma 2 | 27B | 16GB | ollama run gemma2:27b |
| Mistral | 7B | 4.1GB | ollama run mistral |
| Moondream 2 | 1.4B | 829MB | ollama run moondream |
| Neural Chat | 7B | 4.1GB | ollama run neural-chat |
| Starling | 7B | 4.1GB | ollama run starling-lm |
| Code Llama | 7B | 3.8GB | ollama run codellama |
| Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
| LLaVA | 7B | 4.5GB | ollama run lla va |
| Solar | 10.7B | 6.1GB | ollama run solar |
核心操作命令
- 拉取模型:
ollama pull <模型名>(如ollama pull llama3)。从官方库下载到本地。 - 运行模型:
ollama run <模型名>。加载模型到内存,在终端启动交互式对话。 - 创建模型:
ollama create <新模型名> -f ./Modelfile。基于 Modelfile 自定义模型。 - 列出模型:
ollama list。查看本地已存储的模型。 - 删除模型:
ollama rm <模型名>。
2. 任务(Task)
Ollama 支持多种任务类型,每种对应模型的不同用法:
- 对话生成:与模型进行多轮交互。
- 文本生成:根据提示撰写文章、故事等。
- 情感分析:判断文本情感倾向(正面、负面或中立)。
- 文本摘要:将长文本压缩为要点。
- 翻译:实现语言转换。
通过命令行指定任务,载入对应模型即可完成操作。
3. 推理(Inference)
推理即向模型输入数据,模型经计算后输出结果。这是 Ollama 最核心的交互方式。流程简单:你提供文本(问题、提示或对话),模型通过内部神经网络计算后返回答案、文章片段或翻译内容。
Ollama 通过 CLI 或 API 与本地模型交互,高效完成推理任务。
4. 微调(Fine-tuning)
微调指在预训练模型基础上,用私有数据再次训练,提升其在特定领域的表现精度。Ollama 支持此功能,操作步骤大致如下:
- 准备数据集:领域相关的文本或 JSON 格式数据。
- 加载预训练模型:选择一个基础模型,如 LLama2 或 GPT。
- 训练:用自己的数据集对模型进行额外训练。
- 保存和部署:训练后的模型可持久化存储,直接用于后续推理。
这样模型在处理专业问题时更具针对性。
5. API 服务
Ollama 不仅提供命令行工具,后台还运行着一个本地服务器。执行 ollama serve 或首次运行 ollama run 时,服务自动启动,默认监听 127.0.0.1:11434。它提供 RESTful API,允许通过 HTTP 请求与模型交互,方便用 Python、JavaScript 等语言调用本地大模型。
一个简单的 API 调用示例:
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "为什么天空是蓝色的?"
}'
6. Modelfile
模型文件:Ollama 使用 Modelfile 定义和创建模型——类似 Docker 的 Dockerfile。你可以基于现有模型定制参数,例如调整温度、设置系统提示词,或导入 GGUF 格式的模型文件。官方模型库列出支持的模型架构(如 Llama 3、Qwen 2、Mistral、Phi-3 等),直接搜索即可下载。
Modelfile 的关键参数:
- FROM:指定基础模型(需本地已拉取)或模型文件路径。
- SYSTEM:设置系统提示词,定义模型行为与角色。
- PARAMETER:运行参数,如
temperature(控制创造力)、top_p、num_ctx(上下文长度)。 - TEMPLATE:提示词的模板格式。
7. 上下文
对话中的上下文指模型能“记住”的先前对话内容。上下文长度由 num_ctx 控制,决定模型在处理新请求时可参考的历史文本量。上下文越长,内存占用越高——需根据机器配置权衡。
8. 量化
为减少内存占用并加速推理,通常会对模型进行量化。模型名称中常包含表示量化级别的字母,如 q4_0、q5_1、q8。数值越小,内存占用越低,但精度略有损失;数值越大越接近原始模型。GGUF 格式的模型普遍采用这种命名规则。
总结
以上就是 Ollama 的八个核心概念:模型、任务、推理、微调、API 服务、Modelfile、上下文和量化。掌握这些,你就能顺畅地操作本地大模型。从拉取模型起步,逐步尝试微调和定制,会发现本地部署并不复杂。

