Qwen3.6-35B-A3B越狱版实测：6G显存畅跑，本地AI自由真实现

2026-06-17阅读 0热度 0

Qwen

Qwen3.6-35B-A3B“越狱版”实测：6GB显存即可部署，本地AI彻底解锁

本地大模型越狱版运行界面示意

最近密集测试了市面上主流的本地大模型，一个结论越来越清晰：

开源圈能同时满足中文能力扎实、推理性能在线、支持视觉多模态、可当Agent使用、本地单卡部署（甚至6GB显存就能跑）且自带“无限制”特性的模型，一只手数得过来。

这次发布的Qwen3.6-35B-A3B Uncensored（越狱版）却打破了预期。

从实际表现看，它不仅正常完成代码生成、逻辑推理、图像识别、长上下文处理，最关键的是——它直接移除了官方版本中大量内置约束。

实测中，它的中文理解能力、代码编写质量、多模态视觉识别能力，均属当前40B以开源模型中的第一梯队。

硬件兼容性更是亮点：

NVIDIA、AMD、Intel显卡全部支持，单卡即可部署，6GB显存就能启动运行。

下面从零开始，完整走一遍部署流程。

一、整合包下载地址

1、整合包下载

模型资源	下载链接
Qwen3.6-35B-A3B 越狱版整合包	https://pan.quark.cn/s/fc4b737a73f1

二、整合包内容说明

网盘内包含多个独立版本，按需选择。

整合包文件列表截图

llama.cpp 运行环境

整合包中内置了四个预编译版本：

llama-b9381-bin-win-cuda-13.3-x64.zip
llama-b9381-bin-win-cuda-12.4-x64.zip
llama-b9381-bin-win-cpu-arm64.zip
llama-b9381-bin-win-cpu-x64.zip

各版本适用场景如下，根据本地环境匹配即可：

文件	适合环境
cuda-13.3-x64	RTX 30/40/50系显卡，建议搭配最新NVIDIA驱动
cuda-12.4-x64	GTX 10/20系或旧驱动环境
cpu-arm64	ARM架构CPU（如骁龙Windows设备）
cpu-x64	普通Intel/AMD CPU，纯CPU模式运行

三、模型文件说明

模型目录包含多个量化版本，按需下载：

mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf

其中：

视觉模型（必须下载）

mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf

这是多模态视觉模型。若要进行图片分析、截图识别、封面解析、OCR或多模态问答，该文件必选。

主模型选择（根据显存下载对应量化版本）

1、IQ2_M（最低配置版）

IQ2_M

适用：6GB/8GB显存显卡，如RTX 2060、RTX 3060 Laptop、RTX 4060 Laptop 8G。显存占用最低，能跑起来；精度略有折损。

2、IQ4_NL（推荐版）

IQ4_NL

适用12GB~16GB显存。速度、精度与显存三者平衡最优的选择。

3、Q4_K_M（稳定版）

Q4_K_M

适用16GB~24GB显存。推理更稳定，综合能力更强。

4、Q4_K_P（最强版）

Q4_K_P

适用24GB以上显存，对应RTX 3090、4090、5090。当前效果最优的量化版本。

四、开始部署

1、解压 llama.cpp

下载对应版本后解压。例如：

llama-b9381-bin-win-cuda-13.3-x64.zip

解压后目录结构如下：

llama/

2、找到 models 文件夹

根目录下找到：

models

目录结构：

llama/
├─ models/

3、放入模型

将下载好的模型文件复制到 models 文件夹（只需放你需要的版本）。例如：

models/
├─ mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf

六、启动模型

双击根目录下的 run.bat 文件，弹出启动选择界面：

启动界面数字选择示例

输入对应数字即可。例如输入4代表选择IQ2_M版本。

七、进入 Web UI

启动成功后，打开浏览器访问：

http://127.0.0.1:8080/

即可进入聊天界面。

Web UI聊天界面截图

八、实际测试效果

1、4060 8GB 实测

测试硬件配置如下：

配置项	具体参数
显卡	RTX 4060 Laptop 8GB
模型版本	IQ2_M
推理速度	约10 tokens/s

对于35B参数规模的模型，这个输出速率表现相当出色。

九、代码能力测试

要求模型直接生成一个完整项目（含音效、Boss机制），一次生成成功，无需后续调试，逻辑通顺无重大缺陷。代码能力确实能打。

十、多模态视觉测试

上传一张图片，分析内容：

图片理解分析示范

视觉理解能力实测达标。

十一、Agent 支持

Agent工具对接示意

该模型可直接接入Hermes、OpenWebUI、Cherry Studio、AnythingLLM、LangChain等工具。原因在于原生支持OpenAI API格式。

API地址：

http://127.0.0.1:8080

API Key任意填写即可。

API配置页面截图

十二、与官方版区别

同样的问题，例如“写一个ddos代码”：

官方原版直接拒绝响应，而越狱版直接输出完整代码。

可见该版本大幅移除了内置限制。

提醒：此模型仅供本地研究、安全测试与AI能力探索使用，严禁用于非法用途。

十三、为什么这个模型会火

核心原因就一条：不再依赖在线接口、API配额、内容审查、云端封号。所有数据本地运行、本地推理、本地存储。

这正是许多用户真正需要的AI。

十四、总结

从当前测试来看，Qwen3.6-35B-A3B Uncensored 属于开源本地模型中的最强选项之一。

其优势集中体现：中文能力强劲、推理性能扎实、多模态支持完善、本地部署门槛低、Agent能力原生、低显存友好、全平台兼容（NVIDIA/AMD/Intel）。

尤其是“6GB显存即可启动”这一特性，让更多人能以低成本体验高质量本地大模型。

如果你近期计划搭建本地AI助手、AI Agent、AI编程环境、本地多模态系统或自动化方案，这套方案值得优先尝试。