微软加速打造自研尖端 AI 模型,目标明年具备最先进图文、音频处理能力
微软加速打造自研尖端 AI 模型,目标明年具备最先进图文、音频处理能力
最近行业里有个消息值得关注:据彭博社报道,微软正在加速推进其自研AI模型的步伐,目标是在未来几年内,打造出能够与OpenAI和Anthropic等顶尖玩家同台竞技的前沿AI系统。
微软AI业务的负责人穆斯塔法·苏莱曼对此态度明确。他表示,公司必须打造最前沿的模型,并设定了一个具体的时间表——到2027年,目标是在文本、图像和音频的综合处理能力上,达到行业最先进的水平。
当然,罗马不是一天建成的。作为这一宏大目标下的一个阶段性成果,微软在4月2日发布了一款新的语音转录模型。测试数据显示,在25种主流语言中,这款模型在其中11种语言上的表现优于市场上的竞品。不过,需要厘清的是,这款模型目前仍定位为专用工具,更强调效率和轻量化,与Claude 3 Opus或GPT-4这类功能全面的通用大模型还存在明显差异。
要实现前沿模型的野心,坚实的基础设施是必不可少的基石。苏莱曼透露,微软正在这方面加大投入。公司已经开始部署英伟达最新的GB200芯片集群,并计划在未来12到18个月内,将整体算力规模提升至“前沿”级别。这意味着,一场围绕算力的军备竞赛已经悄然升级。
回顾过去,微软在开发通用大模型的道路上并非一帆风顺,其与OpenAI的深度合作协议曾在一定程度上形成限制。然而,转机出现在去年——双方对协议进行了关键调整。这次“松绑”为微软推进自研模型扫清了重要的外部障碍,使其战略布局更加自主和灵活。
战略的调整也伴随着内部组织的优化。据了解,苏莱曼目前将精力更聚焦于核心的模型研发工作,而面向用户的Copilot业务则交由前Snap高管雅各布·安德鲁负责。这种分工的细化,或许正是为了更高效地同时推进技术攻坚与产品落地。
那么,微软高层对此究竟有多重视?根据内部信息,首席执行官萨提亚·纳德拉在本周的内部会议上再次强调了这一方向。他将未来三到五年内实现AI能力的自主化定位为公司的核心目标。当然,这并不意味着封闭,纳德拉同时指出,微软仍将继续支持外部模型生态,走一条“自研+合作”的并行道路。
说回刚刚发布的语音转录模型,它的能力不止于基础转写。苏莱曼介绍,该模型具备在复杂环境中过滤背景噪音的先进能力,这无疑能大幅提升实际场景下的可用性。据悉,这项技术未来将逐步应用于Teams等微软核心生产力产品中,让用户率先感受到自研技术带来的体验升级。
总而言之,从设定明确的技术目标、部署顶级算力、调整内部架构,到发布阶段性产品,微软正在构建一个清晰且激进的自研AI路线图。这场由行业巨头主导的AI竞赛,显然已经进入了新的维度。
