Core本地部署自动化脚本:一键更新模型与清理缓存指南
当Core本地推理服务出现模型版本滞后或磁盘空间不足时,通常源于两个核心症结:本地模型文件未与上游仓库同步,或缓存目录积累了过多历史数据,从而拖慢响应速度甚至引发加载错误。遵循以下步骤,可系统性地解决这些问题。
一、执行一键模型更新脚本
最高效的方案是调用项目内置的更新脚本。该脚本通过智能比对远程模型仓库的哈希值与本地文件的“指纹”,仅拉取发生变动的增量更新包,并执行热替换操作。这种设计既避免了全量下载的带宽与时间消耗,也确保了推理服务的连续性。
操作流程如下:
1. 进入Core部署的根目录,确认其中存在名为 update-model.sh 的脚本文件。
2. 为其赋予可执行权限:chmod +x update-model.sh。
3. 运行更新命令,并指定目标模型,例如:./update-model.sh --model glm-4-flash --force-reload。
4. 等待终端输出 [SUCCESS] Model reload completed, inference service restarted 提示,即表示模型更新与服务重启已完成。
二、触发缓存自动清理流程
长期运行的服务会在缓存目录(通常为 /cache/llm/)中残留过期文件,例如未被访问的临时权重、中间层激活缓存及旧日志快照。这些数据会持续侵占磁盘空间。
Core内置的清理工具可安全扫描并移除这些过期资源:
1. 执行指令:core-cli cleanup --scope cache --ttl 7d --dry-run false。参数 --ttl 7d 定义了清理超过7天的缓存,您可根据实际需求调整此时长。
2. 执行后,关注输出信息。若出现类似 327 items scheduled for deletion 的标记及预估可释放的空间大小,则表明扫描已生效。
3. 此清理过程是安全的。系统会自动跳过被当前推理进程锁定的活跃缓存块,仅处理已完全闲置的资源。
三、手动强制刷新模型元数据缓存
若您通过外部工具直接修改了模型的配置文件(如 config.json 或 tokenizer.json),Core服务可能仍在内存中持有旧的元数据索引,导致修改未能即时生效。
此时,需手动介入以强制刷新元数据:
1. 首先,定位到您的模型加载路径,例如:/models/glm-4-plus/。
2. 找到并删除元数据缓存文件:rm -f .metadata_cache.bin。请注意,此文件为隐藏文件,名称以点号开头。
3. 最后,向正在运行的Core服务进程发送重载信号:kill -SIGUSR2 $(pgrep -f "core-server")。此操作将触发服务重新读取最新的配置文件,而无需完整重启服务进程。
