微软自研AI模型提速,2027年剑指通用大模型领先
微软人工智能业务负责人穆斯塔法·苏莱曼的表态相当直白:公司必须持续突破模型性能边界,而2027年被明确设定为一个关键节点——届时,在文本理解、图像生成以及音频处理这些核心能力上,全面达到业界最高水准。不是追赶,是要领先。
作为阶段性进展,微软在4月2日推出了一款专注于语音转录任务的专用模型。这款模型支持25种主流语言,其中在11种语言的基准测试中,识别精度已经优于同类产品。它的设计思路很有意思——不追求大而全,而是强调运行效率与部署的轻量性。这跟当前主流通用大模型在技术路径和应用场景上,形成了显著区分。
在底层算力这个“硬支撑”上,微软同样在加速。苏莱曼透露,公司已经启动了英伟达GB200芯片集群的规模化部署,未来12到18个月内,算力资源会完成一轮前沿级升级。没有算力,再好的算法也只能是纸上谈兵。
以往微软在通用大模型研发上,多少会受到既有合作框架的制约。但随着去年相关协议完成优化调整,公司在模型自主开发方面的权限获得了实质性拓展。技术路线的独立性得到了保障,这意味着微软可以不再受制于他人的研发节奏。
组织架构层面也在同步调整。苏莱曼目前全面聚焦于基础模型的研发工作;而Copilot相关产品线,则交由前Snap高管雅各布·安德鲁牵头负责。分工明确,各司其职。
微软首席执行官萨提亚·纳德拉在本周内部战略会议上的表态,更能说明这件事的战略分量:未来三到五年,实现AI核心技术能力的全面自主可控,是公司最重要的战略方向之一。当然,对多元外部模型生态的支持与协同,仍然会延续——不是闭门造车,而是在开放中建立自己的护城河。
再说回这次发布的语音转录模型。它具备强鲁棒性,在嘈杂、混响等复杂声学环境下,可以有效抑制背景干扰。后续会分阶段集成至Teams等办公协作产品中,直接提升用户的实际使用体验。