ms-swift大模型推理实战指南：权威测评与最佳实践

2026-06-11阅读 0热度 0

AI大模型

在大模型开发与落地应用过程中，推理环节直接决定了模型上线的最终表现——训练再出色的模型，最终能否胜任实际场景，完全依赖推理阶段的效率与准确性。无论是智能客服实时响应客户问题、内容生成工具自动撰写稿件，还是智能助手执行复杂任务，背后都依赖于稳定且精准的推理流程。ms‑swift 框架作为大模型开发的核心工具，在推理方面提供了高度灵活且功能完善的支持。本文深入剖析 ms‑swift 框架下的大模型推理实践，从基础环境配置起步，逐步演示命令行与 Python API 的具体操作，帮助读者掌握高效推理的实现路径。

2. 推理概述

推理的本质，是将训练完毕的模型应用于新输入数据，由模型生成预测或输出结果。在大模型语境下，推理覆盖文本生成、问答、文本分类、情感分析等多种任务。模型的“智能”正是在推理环节转化为实际价值——它依据训练阶段习得的模式和知识，对新数据进行解析并给出合理回应。

ms‑swift 框架的推理设计充分考虑了不同开发者的需求：若希望快速验证效果，可通过命令行一键启动推理流程；若需要深度定制和精细控制，Python API 则提供完整的操作权限。无论是刚入门的开发者还是资深工程师，都能找到适合自己的操作方式。

3. 环境准备

在本地部署大模型之前，硬件与软件环境是必须跨越的障碍。如果已拥有合适的服务器并完成依赖安装，可以跳过本节。

3.1 服务器

硬件配置直接决定模型能否正常运行以及推理速度。根据模型规模与计算需求选择服务器配置，例如使用 NVIDIA GeForce RTX 4090D GPU（24GB 显存）即可满足大多数 7B 级别模型的推理需求。软件方面，推荐 Ubuntu 22.04 操作系统、Python 3.10 版本，配合 PyTorch 2.1.2 与 CUDA 11.8，这是一套经过验证的 AI 开发环境组合。

3.2 安装依赖

接下来需安装必要的软件包。执行以下命令完成安装：

# 克隆 ms-swift 仓库
git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .

# 安装 vllm，用于模型转换和推理
pip install vllm

# 安装 modelscope，提供模型下载和管理功能
pip install modelscope

3.3 模型准备

模型下载可通过 modelscope 库的 snapshot_download 函数完成。在 /root/autodl-tmp 目录下创建 Jupyter Notebook 文件（如 model_download.ipynb），写入以下代码：

from modelscope import snapshot_download

# 定义模型名称和下载路径
model_name = 'Qwen/Qwen2.5-7B-Instruct'
cache_dir = '/root/autodl-tmp'

# 使用 snapshot_download 下载模型
model_dir = snapshot_download(model_name, cache_dir=cache_dir, revision='master')
print(f"Model downloaded and stored in: {model_dir}")

执行后函数会自动处理下载与解压，模型将存储至指定路径。至此本地部署的基础工作全部完成，可以进入后续的微调与推理环节。

当然，也可以直接通过命令行下载：

# 安装 git-lfs
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs

# 下载模型
git clone https://www.modelscope.cn/Qwen/Qwen2.5-7B-Instruct.git

4. 文本模型推理

4.1 命令行推理

CUDA_VISIBLE_DEVICES=0 swift infer --model /root/autodl-tmp/Qwen/Qwen2.5-7B-Instruct --stream true --infer_backend pt --max_new_tokens 2048

推理效果如下：

GPU 资源消耗（nvidia-smi 输出）：

4.2 Python 推理

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'

from swift.llm import PtEngine, RequestConfig, InferRequest

model = '/root/autodl-tmp/Qwen/Qwen2.5-7B-Instruct'

# 加载推理引擎
engine = PtEngine(model, max_batch_size=2)
request_config = RequestConfig(max_tokens=512, temperature=0)

# 使用 2 个 infer_request 展示 batch 推理
infer_requests = [
    InferRequest(messages=[{'role': 'user', 'content': 'who are you?'}]),
    InferRequest(messages=[
        {'role': 'user', 'content': '浙江的省会在哪？'},
        {'role': 'assistant', 'content': '浙江省的省会是杭州。'},
        {'role': 'user', 'content': '这里有什么好玩的地方'},
    ]),
]

resp_list = engine.infer(infer_requests, request_config)
query0 = infer_requests[0].messages[0]['content']
print(f'response0: {resp_list[0].choices[0].message.content}')
print(f'response1: {resp_list[1].choices[0].message.content}')

代码执行后打印输出如下：

response0: I am Qwen, a large language model created by Alibaba Cloud. I am here to assist with a wide variety of tasks and provide information on numerous topics. How can I help you today?
response1: 杭州有很多好玩的地方，以下是一些推荐：
1. **西湖**：被誉为“人间天堂”，是杭州最著名的景点之一，四季景色各异，有苏堤春晓、断桥残雪等著名景点。
2. **宋城**：以宋代文化为背景，结合现代科技手段，展现宋代风情和历史文化的主题公园。
3. **灵隐寺**：位于杭州西郊，是中国著名的佛教寺庙之一，环境幽静，适合静心游览。
4. **西溪国家湿地公园**：是中国第一个国家湿地公园，自然风光优美，可以体验到江南水乡的独特魅力。
5. **杭州乐园**：适合家庭游玩，有各种游乐设施和表演。
6. **雷峰塔**：与白娘子的故事紧密相连，不仅有美丽的传说，还有精美的建筑和周边的风景。
7. **中国茶叶博物馆**：了解中国茶文化的好地方，可以参观茶园，品尝各种名茶。
8. **杭州植物园**：拥有丰富的植物资源，是休闲散步的好去处。

5. 多模态模型推理

5.1 命令行推理

CUDA_VISIBLE_DEVICES=0 MAX_PIXELS=1003520 VIDEO_MAX_PIXELS=50176 FPS_MAX_FRAMES=12 swift infer --model /root/autodl-tmp/Qwen/Qwen2.5-VL-3B-Instruct --stream true --infer_backend pt --max_new_tokens 2048

推理效果如下：

<<< 这两张图有什么区别
Input an image path or URL <<< /root/autodl-tmp/images/cat.png
Input an image path or URL <<< /root/autodl-tmp/images/animal.png
这两张图片的区别在于它们的动物种类和场景。
1. **第一张图片**：
   - 动物：一只小猫。
   - 场景：背景是模糊的，可能是室内环境，但具体细节不清晰。
2. **第二张图片**：
   - 动物：四只羊。
   - 场景：背景是一个绿色的草地，有山丘和蓝天白云，显得非常自然和田园风光。
总结来说，第一张图片展示了一只小猫，而第二张图片展示了四只羊在一个自然的环境中。
--------------------------------------------------

输入 这两张图有什么区别 之后，控制台会自动输出 Input an image path or URL <<< 提示输入图片地址。这里的标签表示接下来要输入图像数据，两个说明需要两张图。模型会根据标签位置把图像嵌入到 inputs_embeds 中，再结合文本进行推理。

模型推理消耗 GPU 资源（nvidia-smi 输出）：

5.2 Python 推理

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'
os.environ['MAX_PIXELS'] = '1003520'
os.environ['VIDEO_MAX_PIXELS'] = '50176'
os.environ['FPS_MAX_FRAMES'] = '12'

from swift.llm import PtEngine, RequestConfig, InferRequest

model = '/root/autodl-tmp/Qwen/Qwen2.5-VL-3B-Instruct'

# 加载推理引擎
engine = PtEngine(model, max_batch_size=2)
request_config = RequestConfig(max_tokens=512, temperature=0)

# 使用 3 个 infer_request 展示 batch 推理（纯文本、图像、视频）
infer_requests = [
    InferRequest(messages=[{'role': 'user', 'content': 'who are you?'}]),
    InferRequest(messages=[{'role': 'user', 'content': '两张图的区别是什么？'}],
                 images=['/root/autodl-tmp/images/cat.png', '/root/autodl-tmp/images/animal.png']),
    InferRequest(messages=[{'role': 'user', 'content': '