Ollama CLI 权威评测:2024年命令行工具排行榜
Ollama 提供一套完整的命令行界面(CLI),让用户轻松操控本地部署的大语言模型。
核心语法非常简洁:
ollama[args]
执行 ollama --help 即可查看全部可用命令:
Large language model runner Usage: ollama [flags] ollama [command] A vailable Commands: serve Start ollama create Create a model from a Modelfile show Show information for a model run Run a model stop Stop a running model pull Pull a model from a registry push Push a model to a registry list List models ps List running models cp Copy a model rm Remove a model help Help about any command Flags: -h, --help help for ollama -v, --version Show version information
这套命令覆盖了模型从拉取、运行、管理到自定义的全链路操作。下面逐一拆解每个核心能力。
1、使用方法
两种调用方式:
- ollama [flags]:直接使用全局标志,例如查看版本信息。
- ollama [command]:执行具体的子命令完成某项操作。
2、可用命令
每个命令的职责非常清晰:
- serve:启动 Ollama 服务,作为 API 网关监听请求。
- create:通过 Modelfile 定义并创建自定义模型。
- show:展示模型的元数据、参数配置和模板结构。
- run:运行模型,进入交互式对话界面。
- stop:强制终止一个正在运行的模型进程。
- pull:从远程仓库下载模型至本地。
- push:将本地自定义模型上传到远程仓库。
- list:列出本地已下载的所有模型。
- ps:查看当前运行的模型进程及其资源使用情况。
- cp:复制模型,常用于创建测试副本。
- rm:删除本地模型以释放磁盘空间。
- help:获取任意命令的详细用法说明。
3、标志(Flags)
两个全局标志:
-h, --help:显示 Ollama 主帮助信息。-v, --version:打印当前版本号。
完整命令速查表:
| 命令 (Command) | 说明 (Description) | 示例 (Example) |
|---|---|---|
ollama run | 运行模型。若本地不存在则自动拉取。 | ollama run llama3 |
ollama pull | 拉取模型。从仓库下载但不运行。 | ollama pull mistral |
ollama list | 列出模型。显示本地所有已安装的模型。 | ollama list |
ollama rm | 删除模型。移除本地模型以释放空间。 | ollama rm llama3 |
ollama cp | 复制模型。为已有模型创建新名称副本,适合测试。 | ollama cp llama3 my-model |
ollama create | 创建模型。依据 Modelfile 构建自定义模型(高级用法)。 | ollama create my-bot -f ./Modelfile |
ollama show | 显示信息。查看模型的元数据、参数或原始 Modelfile。 | ollama show --modelfile llama3 |
ollama ps | 查看进程。列出当前运行的模型及其显存占用。 | ollama ps |
ollama push | 推送模型。将自定义模型上传至 ollama.com 仓库。 | ollama push my-username/my-model |
ollama serve | 启动服务。启动 Ollama API 服务(通常后台自动运行)。 | ollama serve |
ollama help | 帮助。查看任意命令的详细帮助文档。 | ollama help run |
1. 拉取与删除模型
从远端仓库拉取模型到本地只需指定模型名称:
ollama pull
删除本地模型同样直接:
ollama rm
查看当前本地已下载的模型列表:
ollama list
这三条命令构成了模型管理的基础操作集。
2. 运行模型
进入交互模式运行模型是最常用的操作:
ollama run
如果需要预先设定系统提示并传递用户输入:
ollama run-s " " -p " "
还可以直接从文件中读取 prompt 内容:
ollama run< input.txt
一旦进入聊天界面,你可以使用斜杠开头的快捷指令控制对话流程:
/bye或/exit:最重要!退出聊天界面返回终端。/clear:清空历史上下文,开启全新对话。/show info:查看当前模型的详细参数配置信息。/set parameter seed 123:设置随机种子,确保结果可复现。/help:列出所有可用的聊天快捷指令。
3. 推理接口(一次性执行)
若只做单次推理而不需要进入对话循环,使用 generate 命令:
ollama generate-p " "
执行后直接输出回答并退出。
4. 创建与修改模型
基于 Modelfile 创建自定义模型:
ollama create-f Modelfile
复制模型以生成新名称,常用于测试场景:
ollama cp
5. 服务器相关
启动本地服务(默认监听 11434 端口):
ollama serve
实际上,运行 ollama run 时会自动在后台启动服务,除非你手动禁用了后台服务,否则通常无需显式执行 ollama serve。
6. 模型信息
查看模型的元数据、参数设置及模板结构:
ollama show
7. 专用参数
这些参数可在 run 或 generate 时指定,用于精细控制生成行为:
--num-predict限制输出 token 数 --temperature 控制随机性 --top-k 采样范围 --top-p 核采样 --seed 固定随机性 --format json 输出 JSON --keepalive 会话保持时间
8. Modelfile 指令
构建自定义模型时,Modelfile 内可使用以下指令:
- FROM
:指定基础模型 - SYSTEM "xxx":设置系统提示词
- PARAMETER key=value:设定默认推理参数
- TEMPLATE "xxx":自定义对话模板
- LICENSE "xxx":为模型指定许可证
- ADAPTER
/ WEIGHTS :加载 LoRA 适配器或额外权重
9. API(当 serve 运行时)
当 Ollama 服务(ollama serve)运行后,会暴露 REST API,默认地址为 http://localhost:11434/api:
/api/generate:文本生成/api/chat:对话流式接口/api/pull:远程拉取模型/api/tags:获取本地模型列表
使用 curl 调用 generate 接口的示例:
curl http://localhost:11434/api/generate
-d '{"model":"qwen2.5","prompt":"hello"}'
10. 进阶
运行模型时可临时指定参数值,例如调整温度和采样范围:
ollama run--temperature 0.2 --top-p 0.9
这种行内参数注入方式适合在实验或调优阶段快速验证不同配置的效果。
