昇腾推理性能榜:vLLM Ascend Embedding/Reranker评测

2026-06-15阅读 0热度 0
高性能

在昇腾生态的推理引擎中,vLLM 在文本生成任务上表现出色,但在 Embedding 和 Reranker 这类检索场景下,mis-tei 才是更专业的选择——它专为文本向量化与重排序设计。

mis-tei 的核心能力集中在高效生成文本向量和执行重排序,这直接服务于当前热门的 RAG(检索增强生成)与语义搜索。

实际落地过程中,我们遇到了几个关键挑战:

  • 官方镜像可用,但入口配置门槛较高,上手不易。
  • 路径配置、参数设置、运行方式均需大量细节处理。
  • 若需无缝集成至 GPUStack,还需额外进行适配工作。

针对这些痛点,我们对官方镜像进行了重新打包与配置简化,以社区镜像形式发布,旨在降低使用门槛。本文将完整演示:如何利用该社区镜像,在 GPUStack 上快速接入 mis-tei 后端,并部署高性能 Embedding 或 Reranker 模型。

镜像说明

1. Ascend 官方镜像

官方镜像如下,分别适配不同昇腾芯片型号:

swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.3.0-300I-Duo-aarch64
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.3.0-800I-A2-aarch64
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.3.0-800I-A3-aarch64

2. GPUStack 社区镜像(推荐)

我们推荐的社区镜像是基于官方版本优化后的镜像,地址如下,请根据芯片型号选择对应标签:

swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-300I-Duo-aarch64
swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A2-aarch64
swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A3-aarch64

3. 优化点说明

社区版本在以下方面做了针对性优化:

  • ✅ 启动脚本与参数配置均已简化,操作流程大幅缩减。
  • ✅ 支持任意参数透传,灵活性显著增强。
  • ✅ 无需在 GPUStack 中额外适配,开箱即用。

如需了解具体改动细节,可参阅社区后端仓库:
https://github.com/gpustack/community-inference-backends/tree/main/mis-tei

接入 mis-tei 后端

在 GPUStack 中,mis-tei 通过“自定义后端”方式进行接入。

操作步骤

  1. 进入 推理后端 页面。
  2. 点击右上角的 添加后端 → 自定义
  3. 按照下面的示例填写参数:

⚠️ 关键提醒:镜像标签必须与昇腾设备型号严格匹配,否则无法运行。对照关系如下:

芯片型号镜像 TAG
800I-A2(910B)7.3.0-800I-A2-aarch64
800I-A3(910C)7.3.0-800I-A3-aarch64
300I-Duo(310P)7.3.0-300I-Duo-aarch64

YAML 配置(可直接导入)

对于习惯代码操作的开发者,可直接导入以下 YAML 配置,免去手动填写步骤:

backend_name: mis-tei-custom
health_check_path: /health
default_run_command: --model-id {{model_path}} -p {{port}}
default_env:
  ENABLE_BOOST: "True"
  AUTO_TRUNCATE: "true"
version_configs:
  7.3.0-a2:
    image_name: swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A2-aarch64
    custom_framework: cann
  7.3.0-a3:
    image_name: swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A3-aarch64
    custom_framework: cann
  7.3.0-310p:
    image_name: swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-300I-Duo-aarch64
    custom_framework: cann
default_version: 7.3.0-a2

⚠️ 注意:从网页或文档复制 YAML 时,可能混入不可见字符(如 NBSP),导致解析失败。建议直接从 GitHub 源文件复制,确保格式纯净。
https://github.com/gpustack/community-inference-backends/blob/main/mis-tei/spec.yaml

参数说明

YAML 中的关键参数说明如下:

  • image_name:指定社区镜像地址。
  • custom_framework:设为 cann,声明昇腾运行环境。
  • default_run_command:定义统一的启动参数模板。
  • health_check_path:健康检查端点,用于验证服务状态。

配置完成后,推理后端列表将显示如下效果:

部署模型

后端配置完成后,接下来部署模型。以嵌入模型 BGE-M3 为例:

  1. 进入模型库,使用筛选器选择 Embedding 模型
  2. 选定模型后,在推理引擎选项中切换为已配置的 mis-tei
  3. 点击部署,等待状态变为 Running 即成功。
  4. 如需测试,可直接进入 试验场 进行在线推理。

模型支持说明

关于 mis-tei 支持的模型列表及各个模型的特殊参数,请以官方文档为准。下方链接直达:

? https://www.hiascend.com/developer/ascendhub/detail/07a016975cc341f3a5ae131f2b52399d

小结

通过对 Ascend 官方 mis-tei 镜像的二次封装与适配,GPUStack 中实现了一套更轻量、更易用的方案:

  • ? 部署与配置复杂度显著降低。
  • ? 社区镜像即开即用,节省自行调优时间。
  • ? 从模型加载到服务上线流程更加流畅。
  • ⚡ 尤其适用于 RAG 场景,高效衔接检索与生成链路。

另外,下个版本中,该后端将直接内置至 GPUStack 社区后端列表,届时一键启用,更为便捷。

更多内容

更多社区后端项目请参考下方链接,欢迎参与贡献:

? https://github.com/gpustack/community-inference-backends

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策