Qwen3.6-35B-A3B越狱版实测:6G显存畅跑,本地AI自由真实现

2026-06-17阅读 0热度 0
Qwen

Qwen3.6-35B-A3B“越狱版”实测:6GB显存即可部署,本地AI彻底解锁

在这里插入图片描述本地大模型越狱版运行界面示意

最近密集测试了市面上主流的本地大模型,一个结论越来越清晰:

开源圈能同时满足中文能力扎实、推理性能在线、支持视觉多模态、可当Agent使用、本地单卡部署(甚至6GB显存就能跑)且自带“无限制”特性的模型,一只手数得过来。

这次发布的Qwen3.6-35B-A3B Uncensored(越狱版)却打破了预期。

从实际表现看,它不仅正常完成代码生成、逻辑推理、图像识别、长上下文处理,最关键的是——它直接移除了官方版本中大量内置约束。

实测中,它的中文理解能力、代码编写质量、多模态视觉识别能力,均属当前40B以开源模型中的第一梯队。

硬件兼容性更是亮点:

NVIDIA、AMD、Intel显卡全部支持,单卡即可部署,6GB显存就能启动运行。

下面从零开始,完整走一遍部署流程。


一、整合包下载地址

1、整合包下载

模型资源

下载链接

Qwen3.6-35B-A3B 越狱版整合包

https://pan.quark.cn/s/fc4b737a73f1


二、整合包内容说明

网盘内包含多个独立版本,按需选择。

在这里插入图片描述整合包文件列表截图

llama.cpp 运行环境

整合包中内置了四个预编译版本:

llama-b9381-bin-win-cuda-13.3-x64.zip
llama-b9381-bin-win-cuda-12.4-x64.zip
llama-b9381-bin-win-cpu-arm64.zip
llama-b9381-bin-win-cpu-x64.zip

各版本适用场景如下,根据本地环境匹配即可:

文件

适合环境

cuda-13.3-x64

RTX 30/40/50系显卡,建议搭配最新NVIDIA驱动

cuda-12.4-x64

GTX 10/20系或旧驱动环境

cpu-arm64

ARM架构CPU(如骁龙Windows设备)

cpu-x64

普通Intel/AMD CPU,纯CPU模式运行


三、模型文件说明

模型目录包含多个量化版本,按需下载:

mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf

其中:

视觉模型(必须下载)

mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf

这是多模态视觉模型。若要进行图片分析、截图识别、封面解析、OCR或多模态问答,该文件必选。


主模型选择(根据显存下载对应量化版本)

1、IQ2_M(最低配置版)
IQ2_M

适用:6GB/8GB显存显卡,如RTX 2060、RTX 3060 Laptop、RTX 4060 Laptop 8G。显存占用最低,能跑起来;精度略有折损。


2、IQ4_NL(推荐版)
IQ4_NL

适用12GB~16GB显存。速度、精度与显存三者平衡最优的选择。


3、Q4_K_M(稳定版)
Q4_K_M

适用16GB~24GB显存。推理更稳定,综合能力更强。


4、Q4_K_P(最强版)
Q4_K_P

适用24GB以上显存,对应RTX 3090、4090、5090。当前效果最优的量化版本。


四、开始部署

1、解压 llama.cpp

下载对应版本后解压。例如:

llama-b9381-bin-win-cuda-13.3-x64.zip

解压后目录结构如下:

llama/

2、找到 models 文件夹

根目录下找到:

models

目录结构:

llama/
├─ models/

3、放入模型

将下载好的模型文件复制到 models 文件夹(只需放你需要的版本)。例如:

models/
├─ mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf

六、启动模型

双击根目录下的 run.bat 文件,弹出启动选择界面:

在这里插入图片描述启动界面数字选择示例

输入对应数字即可。例如输入4代表选择IQ2_M版本。

4

七、进入 Web UI

启动成功后,打开浏览器访问:

http://127.0.0.1:8080/

即可进入聊天界面。

在这里插入图片描述Web UI聊天界面截图

八、实际测试效果

1、4060 8GB 实测

测试硬件配置如下:

配置项

具体参数

显卡

RTX 4060 Laptop 8GB

模型版本

IQ2_M

推理速度

约10 tokens/s

对于35B参数规模的模型,这个输出速率表现相当出色。


九、代码能力测试

要求模型直接生成一个完整项目(含音效、Boss机制),一次生成成功,无需后续调试,逻辑通顺无重大缺陷。代码能力确实能打。


十、多模态视觉测试

上传一张图片,分析内容:

在这里插入图片描述图片理解分析示范

视觉理解能力实测达标。


十一、Agent 支持

在这里插入图片描述Agent工具对接示意

该模型可直接接入Hermes、OpenWebUI、Cherry Studio、AnythingLLM、LangChain等工具。原因在于原生支持OpenAI API格式。

API地址:

http://127.0.0.1:8080

API Key任意填写即可。

在这里插入图片描述API配置页面截图


十二、与官方版区别

同样的问题,例如“写一个ddos代码”:

官方原版直接拒绝响应,而越狱版直接输出完整代码。

可见该版本大幅移除了内置限制。

提醒:此模型仅供本地研究、安全测试与AI能力探索使用,严禁用于非法用途。


十三、为什么这个模型会火

核心原因就一条:不再依赖在线接口、API配额、内容审查、云端封号。所有数据本地运行、本地推理、本地存储。

这正是许多用户真正需要的AI。


十四、总结

从当前测试来看,Qwen3.6-35B-A3B Uncensored 属于开源本地模型中的最强选项之一。

其优势集中体现:中文能力强劲、推理性能扎实、多模态支持完善、本地部署门槛低、Agent能力原生、低显存友好、全平台兼容(NVIDIA/AMD/Intel)。

尤其是“6GB显存即可启动”这一特性,让更多人能以低成本体验高质量本地大模型。

如果你近期计划搭建本地AI助手、AI Agent、AI编程环境、本地多模态系统或自动化方案,这套方案值得优先尝试。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策