开源Computer Use模型Holo3.1发布：35B版性能完胜Qwen3.5与Claude 4.6

2026-06-24阅读 0热度 0

Claude

6月2日，法国AI公司H Company正式发布了Holo3.1系列开源计算机控制大模型。距离Holo3的发布只有两个月，这次的更新明显更有针对性——团队根据生产环境的实际反馈做了优化，解决的是AI袋里在实际落地时普遍让人头疼的几个痛点：云部署延迟高、成本高，以及数据隐私风险。

Holo3.1基于Qwen架构开发，专门针对GUI理解、屏幕操作、任务规划、跨应用导航这类计算机控制场景做了微调。和通用大模型相比，它在真实本地GUI任务中的表现要突出不少。更重要的是，它原生支持函数调用协议，能无缝接入第三方AI袋里框架，适配不同生产环境的部署需求，这点对开发者来说相当友好。

整个系列覆盖了0.8B、4B、9B、35B四种参数规格，同时提供NVFP4、FP8、Q4 GGUF三种量化版本。这意味着它完全可以离线运行在MacBook、Windows PC、DGX Spark等设备上，所有运算与数据都不离开用户本地环境——对于注重数据安全的企业用户来说，这无疑是关键优势。

发布归发布，具体表现如何？官方给出的基准测试数据值得一看。Holo3.1 35B版本整体性能达到了78.3%，OSWorld基准80.0%，AndroidWorld基准79.3%，全面超过了Qwen3.5-397B、Kimi-K2.5、Claude Sonnet 4.6等主流模型。更让人意外的是，哪怕是4B、9B这样的小参数版本，AndroidWorld基准成绩也达到了71%，对于多数简单自动化场景来说，完全够用了。

速度方面，量化优化的效果在实测数据中体现得很清楚。在DGX Spark设备上使用Fast harness调度，NVFP4量化的35B版本每分钟可处理18.1个请求，是FP8版本的1.5倍，是全精度BF16版本的1.74倍。而OSWorld基准成绩仅比BF16版本低了2个百分点，几乎感知不到性能损失。

更让人关注的是消费级硬件的部署能力。Q4 GGUF版本的35B模型可以在苹果硅Mac、普通Windows PC上运行，小参数版本甚至有望适配移动端神经引擎。官方提到，配合后续将推出的桌面袋里调度工具，端到端操作延迟可以从6.8秒压缩到3.3秒。这意味着什么？一台普通电脑就能跑起一个可用的AI操作袋里，不再需要昂贵的云端GPU支持。

目前所有Holo3.1模型权重已经在Hugging Face开放下载。35B版本采用Apache 2.0协议完全开源，可免费商用。官方同时提供API服务，免费tier支持每分钟10次请求，无需绑定信用卡；付费版输入token定价为每百万0.25美元，输出token每百万1.8美元，上下文长度65536，支持最多5张1080P图像输入。值得注意的是，官方明确API默认不保留用户的提示词与返回结果，仅记录请求时间、模型与token数量等基础日志信息。更高性能的122B版本为研究授权，仅对付费用户开放，适用于复杂多步操作场景。

该模型发布后，开发者社区的反响相当热烈。有开发者直言，此前云端袋里的延迟和成本足以抵消多数自动化收益，本地高吞吐量的计算机控制模型才是AI袋里真正进入日常工作的核心前提。也有开发者表示，4B小参数版本的表现超出了预期，有望在端侧设备上实现可用的AI操作功能。从这些反馈来看，Holo3.1可能真的踩准了市场的需求点。

开源Computer Use模型Holo3.1发布：35B版性能完胜Qwen3.5与Claude 4.6

相关阅读

最新教程

最新资讯