Qwen3.6-35B-A3B越狱版实测:6G显存畅跑,本地AI自由真实现
Qwen3.6-35B-A3B“越狱版”实测:6GB显存即可部署,本地AI彻底解锁
最近密集测试了市面上主流的本地大模型,一个结论越来越清晰:
开源圈能同时满足中文能力扎实、推理性能在线、支持视觉多模态、可当Agent使用、本地单卡部署(甚至6GB显存就能跑)且自带“无限制”特性的模型,一只手数得过来。
这次发布的Qwen3.6-35B-A3B Uncensored(越狱版)却打破了预期。
从实际表现看,它不仅正常完成代码生成、逻辑推理、图像识别、长上下文处理,最关键的是——它直接移除了官方版本中大量内置约束。
实测中,它的中文理解能力、代码编写质量、多模态视觉识别能力,均属当前40B以开源模型中的第一梯队。
硬件兼容性更是亮点:
NVIDIA、AMD、Intel显卡全部支持,单卡即可部署,6GB显存就能启动运行。
下面从零开始,完整走一遍部署流程。
一、整合包下载地址
1、整合包下载
模型资源 | 下载链接 |
|---|---|
Qwen3.6-35B-A3B 越狱版整合包 | https://pan.quark.cn/s/fc4b737a73f1 |
二、整合包内容说明
网盘内包含多个独立版本,按需选择。
llama.cpp 运行环境
整合包中内置了四个预编译版本:
llama-b9381-bin-win-cuda-13.3-x64.zip
llama-b9381-bin-win-cuda-12.4-x64.zip
llama-b9381-bin-win-cpu-arm64.zip
llama-b9381-bin-win-cpu-x64.zip
各版本适用场景如下,根据本地环境匹配即可:
文件 | 适合环境 |
|---|---|
cuda-13.3-x64 | RTX 30/40/50系显卡,建议搭配最新NVIDIA驱动 |
cuda-12.4-x64 | GTX 10/20系或旧驱动环境 |
cpu-arm64 | ARM架构CPU(如骁龙Windows设备) |
cpu-x64 | 普通Intel/AMD CPU,纯CPU模式运行 |
三、模型文件说明
模型目录包含多个量化版本,按需下载:
mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf
其中:
视觉模型(必须下载)
mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
这是多模态视觉模型。若要进行图片分析、截图识别、封面解析、OCR或多模态问答,该文件必选。
主模型选择(根据显存下载对应量化版本)
1、IQ2_M(最低配置版)
IQ2_M
适用:6GB/8GB显存显卡,如RTX 2060、RTX 3060 Laptop、RTX 4060 Laptop 8G。显存占用最低,能跑起来;精度略有折损。
2、IQ4_NL(推荐版)
IQ4_NL
适用12GB~16GB显存。速度、精度与显存三者平衡最优的选择。
3、Q4_K_M(稳定版)
Q4_K_M
适用16GB~24GB显存。推理更稳定,综合能力更强。
4、Q4_K_P(最强版)
Q4_K_P
适用24GB以上显存,对应RTX 3090、4090、5090。当前效果最优的量化版本。
四、开始部署
1、解压 llama.cpp
下载对应版本后解压。例如:
llama-b9381-bin-win-cuda-13.3-x64.zip
解压后目录结构如下:
llama/
2、找到 models 文件夹
根目录下找到:
models
目录结构:
llama/
├─ models/
3、放入模型
将下载好的模型文件复制到 models 文件夹(只需放你需要的版本)。例如:
models/
├─ mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf
六、启动模型
双击根目录下的 run.bat 文件,弹出启动选择界面:
输入对应数字即可。例如输入4代表选择IQ2_M版本。
4
七、进入 Web UI
启动成功后,打开浏览器访问:
http://127.0.0.1:8080/
即可进入聊天界面。
八、实际测试效果
1、4060 8GB 实测
测试硬件配置如下:
配置项 | 具体参数 |
|---|---|
显卡 | RTX 4060 Laptop 8GB |
模型版本 | IQ2_M |
推理速度 | 约10 tokens/s |
对于35B参数规模的模型,这个输出速率表现相当出色。
九、代码能力测试
要求模型直接生成一个完整项目(含音效、Boss机制),一次生成成功,无需后续调试,逻辑通顺无重大缺陷。代码能力确实能打。
十、多模态视觉测试
上传一张图片,分析内容:
视觉理解能力实测达标。
十一、Agent 支持
该模型可直接接入Hermes、OpenWebUI、Cherry Studio、AnythingLLM、LangChain等工具。原因在于原生支持OpenAI API格式。
API地址:
http://127.0.0.1:8080
API Key任意填写即可。
十二、与官方版区别
同样的问题,例如“写一个ddos代码”:
官方原版直接拒绝响应,而越狱版直接输出完整代码。
可见该版本大幅移除了内置限制。
提醒:此模型仅供本地研究、安全测试与AI能力探索使用,严禁用于非法用途。
十三、为什么这个模型会火
核心原因就一条:不再依赖在线接口、API配额、内容审查、云端封号。所有数据本地运行、本地推理、本地存储。
这正是许多用户真正需要的AI。
十四、总结
从当前测试来看,Qwen3.6-35B-A3B Uncensored 属于开源本地模型中的最强选项之一。
其优势集中体现:中文能力强劲、推理性能扎实、多模态支持完善、本地部署门槛低、Agent能力原生、低显存友好、全平台兼容(NVIDIA/AMD/Intel)。
尤其是“6GB显存即可启动”这一特性,让更多人能以低成本体验高质量本地大模型。
如果你近期计划搭建本地AI助手、AI Agent、AI编程环境、本地多模态系统或自动化方案,这套方案值得优先尝试。






