昇腾推理性能榜：vLLM Ascend Embedding/Reranker评测

2026-06-15阅读 0热度 0

高性能

在昇腾生态的推理引擎中，vLLM 在文本生成任务上表现出色，但在 Embedding 和 Reranker 这类检索场景下，mis-tei 才是更专业的选择——它专为文本向量化与重排序设计。

mis-tei 的核心能力集中在高效生成文本向量和执行重排序，这直接服务于当前热门的 RAG（检索增强生成）与语义搜索。

实际落地过程中，我们遇到了几个关键挑战：

官方镜像可用，但入口配置门槛较高，上手不易。
路径配置、参数设置、运行方式均需大量细节处理。
若需无缝集成至 GPUStack，还需额外进行适配工作。

针对这些痛点，我们对官方镜像进行了重新打包与配置简化，以社区镜像形式发布，旨在降低使用门槛。本文将完整演示：如何利用该社区镜像，在 GPUStack 上快速接入 mis-tei 后端，并部署高性能 Embedding 或 Reranker 模型。

镜像说明

1. Ascend 官方镜像

官方镜像如下，分别适配不同昇腾芯片型号：

swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.3.0-300I-Duo-aarch64
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.3.0-800I-A2-aarch64
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.3.0-800I-A3-aarch64

2. GPUStack 社区镜像（推荐）

我们推荐的社区镜像是基于官方版本优化后的镜像，地址如下，请根据芯片型号选择对应标签：

swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-300I-Duo-aarch64
swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A2-aarch64
swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A3-aarch64

3. 优化点说明

社区版本在以下方面做了针对性优化：

✅ 启动脚本与参数配置均已简化，操作流程大幅缩减。
✅ 支持任意参数透传，灵活性显著增强。
✅ 无需在 GPUStack 中额外适配，开箱即用。

如需了解具体改动细节，可参阅社区后端仓库：
https://github.com/gpustack/community-inference-backends/tree/main/mis-tei

接入 mis-tei 后端

在 GPUStack 中，mis-tei 通过“自定义后端”方式进行接入。

操作步骤

进入 推理后端 页面。
点击右上角的 添加后端 → 自定义。
按照下面的示例填写参数：

⚠️ 关键提醒：镜像标签必须与昇腾设备型号严格匹配，否则无法运行。对照关系如下：

芯片型号	镜像 TAG
800I-A2（910B）	`7.3.0-800I-A2-aarch64`
800I-A3（910C）	`7.3.0-800I-A3-aarch64`
300I-Duo（310P）	`7.3.0-300I-Duo-aarch64`

YAML 配置（可直接导入）

对于习惯代码操作的开发者，可直接导入以下 YAML 配置，免去手动填写步骤：

backend_name: mis-tei-custom
health_check_path: /health
default_run_command: --model-id {{model_path}} -p {{port}}
default_env:
  ENABLE_BOOST: "True"
  AUTO_TRUNCATE: "true"
version_configs:
  7.3.0-a2:
    image_name: swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A2-aarch64
    custom_framework: cann
  7.3.0-a3:
    image_name: swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A3-aarch64
    custom_framework: cann
  7.3.0-310p:
    image_name: swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-300I-Duo-aarch64
    custom_framework: cann
default_version: 7.3.0-a2

⚠️ 注意：从网页或文档复制 YAML 时，可能混入不可见字符（如 NBSP），导致解析失败。建议直接从 GitHub 源文件复制，确保格式纯净。
https://github.com/gpustack/community-inference-backends/blob/main/mis-tei/spec.yaml

参数说明

YAML 中的关键参数说明如下：

image_name：指定社区镜像地址。
custom_framework：设为 cann，声明昇腾运行环境。
default_run_command：定义统一的启动参数模板。
health_check_path：健康检查端点，用于验证服务状态。

配置完成后，推理后端列表将显示如下效果：

部署模型

后端配置完成后，接下来部署模型。以嵌入模型 BGE-M3 为例：

进入模型库，使用筛选器选择 Embedding 模型。
选定模型后，在推理引擎选项中切换为已配置的 mis-tei。
点击部署，等待状态变为 Running 即成功。
如需测试，可直接进入 试验场 进行在线推理。

模型支持说明

关于 mis-tei 支持的模型列表及各个模型的特殊参数，请以官方文档为准。下方链接直达：

? https://www.hiascend.com/developer/ascendhub/detail/07a016975cc341f3a5ae131f2b52399d

小结

通过对 Ascend 官方 mis-tei 镜像的二次封装与适配，GPUStack 中实现了一套更轻量、更易用的方案：

? 部署与配置复杂度显著降低。
? 社区镜像即开即用，节省自行调优时间。
? 从模型加载到服务上线流程更加流畅。
⚡ 尤其适用于 RAG 场景，高效衔接检索与生成链路。

另外，下个版本中，该后端将直接内置至 GPUStack 社区后端列表，届时一键启用，更为便捷。