腾讯混元Hy3预览版开源:推理效率提升40%,多场景性能与性价比评测
大模型领域的竞争,从来不只是参数规模的比拼,更是实用性与性价比的终极考验。最近,腾讯混元放出的新动作,或许为这场竞赛提供了一个值得关注的样本。
腾讯混元Hy3 preview发布并开源
4月23日,腾讯混元正式发布了Hy3 preview语言模型,并宣布开源。这个模型有点意思,它采用了快慢思考融合的混合专家架构,总参数量达到2950亿,但每次推理激活的参数是210亿,最大能支持长达256K的上下文。更重要的是,这是腾讯混元团队在年初完成基础设施重建后,训练出的第一个模型,也被官方称为迄今“最智能”的一代。从复杂推理、指令遵循到代码和智能体能力,各方面都实现了大幅提升。
混元重建基础设施与原则
要理解Hy3 preview的意义,得先看看它背后的思路转变。今年2月,腾讯混元做了一次彻底的“重建”,不仅升级了预训练和强化学习的基础设施,更明确了三个追求实用性的核心原则:
第一,能力要体系化,不鼓励“偏科”;第二,评测要追求真实性,主动跳出那些容易被“刷榜”的公开榜单;第三,深度追求性价比,让模型架构和推理框架协同设计,从根本上降低任务成本。
可以说,Hy3 preview正是这套新思路下的首个成果。按照腾讯首席AI科学家姚顺雨的说法,这只是一个开端。通过开源和发布来收集反馈,目的是为了提升正式版的实用性,同时继续扩大训练规模,探索模型能力的上限。
Hy3 preview首发上线情况
模型好不好,落地见真章。目前,Hy3 preview已经在一系列腾讯系产品中首发上线,包括腾讯云、元宝、腾讯文档、QQ及QQ浏览器等。此外,像微信公众号、和平精英、腾讯新闻等主力产品也在陆续接入中。
对于开发者而言,好消息是它不仅支持接入OpenClaw、OpenCode等流行的开源智能体框架,也已经上架了腾讯云的大模型服务平台TokenHub,获取和使用的门槛大大降低。
Hy3 preview主打全面实用性
那么,这个被寄予厚望的模型,实际能力到底如何?多个维度的测评结果给出了答案。
首先,在上下文学习和指令遵循方面,表现相当出色。团队专门提出了CL-bench等评估体系,而Hy3 preview在这些测试中进步显著。
其次,复杂推理是它的强项。在FrontierScience-Olympiad、IMOAnswerBench这些高难度的理工科推理任务中,它都拿出了有竞争力的表现,甚至在清华大学求真书院的数学博资考等专业评测中取得了优异成绩。
最后,代码与智能体能力的提升可能是最突出的。在SWE-Bench、Terminal-Bench等主流代码基准,以及BrowseComp等搜索智能体测试中,它都取得了不错的结果。腾讯内部构建的多个贴近真实工程任务的评测集也表明,Hy3 preview在处理后端开发、高难度软件工程等问题时,展现出了很强的竞争力和性价比。
腾讯核心业务接入收益明显
“自产自用”往往是检验模型实用性的第一道关卡。在正式发布前,Hy3 preview已经在腾讯多个核心业务中进行了深度测试,收益颇为明显。
在元宝产品中,通过深度协同设计,模型的意图理解精准度和文本创作质量等硬指标都有提升,交互体验也更自然,更具“活人感”。
在CodeBuddy和WorkBuddy这类生产力工具上,效果更为直观:首token延迟降低了54%,端到端时长减少47%,成功率则提升到99.99%以上,甚至能稳定驱动长达495步的复杂智能体工作流。
其他业务线也传来了好消息:腾讯文档的AI PPT生成成功率提升了20%,耗时缩短20%;QQ AI助手在响应速度和流式输出效率上优化显著;甚至在和平精英的AI NPC场景中,无论局内局外,表现都相当出色。
推理效率提升,成本下降
当然,所有能力的提升,最终都要面对成本和效率的拷问。好在,得益于模型与推理框架的深度协同优化,Hy3 preview在这方面交出了一份不错的成绩单:整体推理效率提升了40%,成本相比上一代模型大幅下降。
在腾讯云TokenHub平台上,其价格已经颇具吸引力:输入价格最低至每百万tokens 1.2元,若命中缓存则仅需0.4元;输出价格最低为每百万tokens 4元。腾讯云还联合推出了定制的Token Plan套餐,个人版月费最低28元起,这无疑为开发者尝试智能体应用或打造“小而美”的工具,提供了一个更具性价比的选择。
从基础设施的重建,到实用性原则的贯彻,再到最终在成本与性能上取得的平衡,腾讯混元Hy3 preview的这次亮相,似乎不仅仅是一个新模型的发布,更像是一次对“大模型如何真正有用”这个命题的系统性回应。接下来的市场反馈,将检验这份答卷的最终分数。
