2024年AI趋势解读:Google I/O后的开发者新指南
当前,AI编程(Coding)的商业价值已被市场广泛认可,这几乎成了行业共识。
“尽管我们上调了Token价格,客户接受度依然很高,需求持续旺盛,甚至当前供应仍无法完全满足需求,仍有大量客户在排队等待服务。”在阿里巴巴上周的2026财年第四季度财报会议上,CEO吴泳铭的这番话,无疑揭示了AI编程市场蛋糕的庞大。
至此,AI终于从炫酷的发布会,真正走进了企业的生产预算。阿里用实实在在的业绩,回答了市场的第一个核心疑问:AI到底有没有真实、强劲的需求?答案是肯定的。
紧接着,第二个更关键的问题浮出水面:AI的下一步,究竟会长成什么模样?
就在北京时间5月20日凌晨,Google I/O 2026开发者大会如期而至,给出了它的答案。
这届大会的焦点,毫无悬念地落在了“智能体”与“多模态”能力的全面展示上。随着Gemini Omni Flash的发布,Google为其下了一个精准的定义——一个支持任何模态输入,并能生成任何模态输出的模型。
大会上展示的视频生成能力仅仅是个开始。按照Google的蓝图,Omni的目标是实现文、图、音、视的全模态自由输出,并依托Gemini世界模型的能力,生成重力、动力学效果更为精确的物理模拟。
对Google而言,Omni不再只是一个单纯的视频模型,它瞄准的是成为真正的超级内容创作入口,进而嵌入所有创作者的工作流。这背后,是一个比当前AI编程想象空间更为广阔的多模态应用市场。
相较于文本编程,多模态内容创作才是AI世界里更富饶的矿藏。从行业通用定价来看,视频模型每百万tokens的价格,远高于图片和文本模型。这意味着,只要token调用量上去,视频所能创造的API价值将远超文本。
更重要的是,我们正站在一个历史性的技术拐点上。
对比早期那种将文本、图像、视频模型简单拼接的模式,到了2026年,以Google Gemini Omni为代表的“统一基座全模态模型”的出现,标志着行业即将迈入一个全新的纪元。
多模态,下一个Token拐点
OpenAI首席执行官Sam Altman或许也没料到,用户规模突破100万大关,发布初期的ChatGPT用了5天,而GPT-4o的图像生成功能,只用了1个小时。
凭借高度还原的吉卜力动画风格,GPT-4o的绘图功能一经上线便迅速爆红,迫使OpenAI不得不限制免费使用资格,甚至公开恳求用户“手下留情”,让开发团队能睡个好觉。
今年发布的图像生成模型Image 2,再次刷新纪录,一小时内全球新增用户突破180万。短短一周,其全球活跃用户数便超过1.2亿,直接带动ChatGPT Plus订阅量环比增长23%。
而年初Google Nano Banana 2的发布,则实现了在全球各项测试中“屠榜”的盛况。这款产品将一张细节丰富的4K图片生成时间,从分钟级压缩到了秒级。
截至目前,Nano Banana系列累计生成的图片已超过500亿张。有媒体评价称,Google正在终结一个属于Photoshop的时代。
毫无疑问,具备碘伏性的多模态模型,拥有“一锤定音”般的市场影响力。
回顾去年的Google I/O大会,VEO 3一鸣惊人,其生成的切水果视频席卷了TikTok。仅用半年时间,VEO 3生成的视频总量就突破了2.3亿条。当时便有媒体撰文指出,VEO 3挽救了谷歌那个季度的财报。
但更大的碘伏,显然还在路上。
就在前几天,有Reddit用户意外发现并分享了一段Gemini Omni的内部演示视频,瞬间引爆了全球AI社区:视频中,一位教师一边流畅地讲课,一边在黑板上写下复杂的数学公式,全程声音、画面、板书文字精确同步,丝滑至极。
有X平台用户评价道:视频模型的“Nano Banana时刻”恐怕要来了。
Gemini Omni的惊艳之处远不止于此。该模型支持一键去除视频水印、替换物体并自适应光影变化。从演示效果看,其在文字一致性、角色连贯性上,已经超越了以往所有的视频模型。
但凡体验过AI生成“火星文”或画面崩坏的用户都清楚,让AI产出文字清晰准确的内容有多困难,更不用说是在课堂上边讲解边书写数学公式这种高难度场景了。
与VEO相比,Google Omni是真正意义上实现“全模态输入、全模态输出”的模型。它支持用户混合输入任意模态的内容(如文字描述+图片参考),直接生成高质量视频,并支持通过对话进行实时编辑。
这意味着,Omni有能力将所有模态的分析与生成处理,在一个统一的模型内部闭环完成,而非调用多个独立系统进行后期拼接整合。
按照Google的定义,Omni是Gemini主架构的一次进化,将Gemini自诞生起就具备的原生多模态理解能力,从输入端扩展到了输出端。
相比之下,VEO和Nano Banana并非独立产品,它们更像是Omni这个“超级大脑”身上的能力组件。
在大会现场演示中,Google高管展示了具体的编辑场景——用户只需输入“把背景换成雪地”,模型就能实时替换视频环境;输入“改成从侧面跟拍的角度”,画面运镜随之改变;输入“加上一段旁白”,视频便能自动生成解说词并配以背景音乐。
自始至终,用户只需通过对话,就能像指挥一位资深剪辑师一样修改视频,且能精确到每一个细节,无需在不同工具或线程间切换,也无需重新上传文件。这彻底改写了VEO等上一代视频模型依赖提示词、多次“抽卡”赌运气的创作模式。
DeepMind首席执行官德米斯·哈萨比斯进一步表示,未来的Omni将能完成任意模态的输入及输出功能,其入口将覆盖Gemini应用、Google Flow和YouTube Shorts等产品,更强的Omni版本也会在后续推出。
背后的野心已昭然若揭。Google要打造的是一个真正的“世界模型”,没有媒介限制,没有模态隔阂,AI可以用任何人类能理解的方式与世界进行交互。它试图用一个模型,来定义AI的未来形态。
而支撑这份野心的基石,正是其全模态能力。
很多人尚未意识到,基于统一基座的全模态模型,在研发效率上其实更具优势。
在执行跨模态任务时,文本理解能力的提升,可以反哺图像和视频的生成质量,让内容更符合逻辑;反过来,图像和视频的海量训练数据,又能帮助模型更好地理解物理世界,从而提升文本推理和常识判断能力。
这是一个典型的1+1>2的正向循环。这也解释了为何杨立昆、李飞飞等AI领域的顶尖学者始终坚持认为,多模态世界模型才是AI发展的未来路径。
过去,市场的目光紧紧盯着AI编程(Coding),对多模态的认知和估值普遍不足。如今,这一思维范式正在被快速推翻。
摩根士丹利在近期的一份研报中指出,市场忽略了Minimax的潜在价值,其ARR(年化经常性收入)在2026年底有望达到10亿美元。一个重要原因在于,市场低估了多模态技术的商业价值,特别是大语言模型与多模态模型相互促进所带来的乘数效应。
这句话,恰恰点破了当前AI行业最大的一个视野盲区。
原生的五感全能战士?
将视线转回国内市场,一轮由技术驱动的新增长正在悄然酝酿。
摩根士丹利指出,中国的大模型市场已经走到了凸性爆发的拐点,有望复刻美国市场曾经的超新星爆发速度。原因有二:一是中国头部模型的能力已接近甚至超越此前的美国标杆产品;二是相比美国模型,中国模型的定价普遍更具优势。
放眼望去,国内主要玩家的现阶段叙事逻辑高度趋同:争夺“Claude平替”这个生态位,再寻找自身的独有优势,比如专攻长文本、或聚焦智能体、或强化推理能力,最后从订阅价格上卷出优势,试图在红海中杀出一条血路。
但这并非市场的全貌。
仍有玩家在技术路线上高度接近Google Gemini Omni的方向,有望在国内率先复刻这一生态位,它就是Minimax。
最近,高盛在一份报告中将字节跳动、阿里巴巴和Minimax三家并列讨论,依据是:在中国独立的AI厂商中,Minimax拥有独一无二的全面全模态布局,以及行业领先的高性价比、高灵活性的计算架构。
高盛:中国多模态模型持续进军全球,关注Hailuo 3
按照高盛的预测,M3与Hailuo 3模型的发布,将成为Minimax的重要里程碑。其文本API业务的毛利率有望达到40%,多模态API业务的毛利率更是可能达到60-70%,高于行业平均水平。
瑞银则将Minimax的目标价设定为1000港元,理由是随着多模态能力潜力的释放,不同模态间的协同研发,将带动训练成本的压缩以及模型能力的快速提升。
换言之,多模态研发为Minimax带来的远不止是产品矩阵的丰富,还包括一套更精细、更高效的工程框架。这将进一步降低企业使用模型的门槛,推动AI从开发者工具向普通用户的生产力工具扩展。
摩根大通给予Minimax“超配”评级,理由是看中其“技术实力、多模态商业化潜力与全球可扩展性三者结合的罕见特质”。
Minimax不仅是国内唯一同时具备“文本+图像+视频+音频+音乐”全栈自研能力的独立大模型厂商,而且其文本、语音、视频生成能力均已稳居全球第一梯队。
在过去,市场对“全模态”容易产生一种误解,仿佛那只是一张功能清单——文本、图片、视频、语音、音乐,五个格子都打上勾,便称之为全模态。
但事实上,全模态的真正价值,不在于“能做什么”,而在于“这些能力能否彼此增强、协同进化”。这是先天一体化路线与后天“打补丁”式升级的本质区别。
视频生成就是一个绝佳的例证。
一个纯文本模型声称自己理解物理世界,很难被直接验证。你让它写一篇关于苹果落地的文章,它能写得头头是道,但你永远无法确知它是否真正理解了万有引力。
但视频生成不一样,任何瑕疵都会在一秒钟内暴露无遗。手的位置对不对?物体运动的轨迹是否符合物理规律?镜头切换是否连贯?文字是否清晰准确?音画是否同步?只要一个地方出错,用户立刻就能察觉。
这是对大模型理解世界能力的终极考验。它不仅需要更强的空间理解能力,还需要因果推理、长程一致性以及多对象关系建模能力。而这些能力的锤炼,又会反过来提升其文本理解、智能体(Agent)和工具调用性能。
换言之,统一基座的全模态模型,不是五个独立模型的简单相加,而是一个有机的、能力互哺的整体。
这正是Minimax所选择的路线。从M系列大语言模型,到海螺(Hailuo)视频模型、Music音频模型,这种全模态自研+全模态落地的完整性,在国内独立AI企业中属于独一份。
这种底层碘伏性的、先天一体的技术路线,使得Minimax能够在更低的成本下,实现更流畅的“全感官”智能体验。
摩根士丹利测算,通过基础设施的深度优化,Minimax在8卡H800推理服务器上,每分钟可产生约1美元的收入,而成本低于0.3美元。相比之下,行业平均水平大约只有0.5美元/分钟。
其招股书中的一段数据更为直观:自成立以来,Minimax仅花费了约5亿美元,便站上了全球多模态能力的第一梯队。这个费用规模,大约只有OpenAI的1%。
其文本大模型M2发布时,在全球权威评测Artificial Analysis中拿下开源模型第一的成绩,其综合推理成本仅为0.53美元/百万Token,只有Claude 4.5 Sonnet的8%,而推理速度则是后者的两倍。
同时,在全模态模型的技术路线上,Minimax有能力让文、图、音、视频能力协同迭代,从而在迭代效率、训练成本与模型性能这个“不可能三角”中取得突破。
去年发布的Minimax视频模型,仅用约一个月时间,已帮助全球创作者累计生成视频超过6亿个;其语音模型则凭借全球顶尖的超低延时技术,累计生成语音超过2亿小时。
换句话说,凭借稳居全球第一梯队的多模态模型能力,Minimax的模型早已成为全球多模态领域不可或缺的核心基础设施之一。
Pure-Play的增长拐点
对于投资者而言,当前最关心的问题或许是:在这场全模态能力的大爆发中,谁将成为下一颗崛起的新星?
答案很可能指向展现出稀缺性资产特质的Minimax,它有望同时承接三重历史性的行业红利。
第一重红利,是阿里巴巴MaaS(模型即服务)业务业绩已经验证过的——Token量价齐升的行业β红利。
阿里巴巴2026财年财报显示,其包含百炼MaaS平台在内的AI模型与应用服务,ARR(年化经常性收入)已突破80亿元软妹币,预计到年底将突破300亿元。
吴泳铭的发言证实,智能体(Agent)市场目前处于供不应求的状态,卖方市场特征显著。这背后的市场逻辑已经完全扭转。
摩根大通指出,当前市场的主战场已经从单纯的Token价格竞争,转向了模型能力的比拼。在需求高度强劲的背景下,最优策略不是降价,而是提升模型能力。技术方向正确且迭代速度更快的玩家,将成为市场的引领者。
第二重红利,是Google全模态基座模型路线所催化的、多模态估值重估的行业α。
过去,纯文本模型公司享受了AI行情中的绝大多数估值溢价。而全模态基座模型的出现将碘伏这一认知——所有需要视觉、听觉、空间感知的场景,如教育、传媒、工业、医学、消费等,都将成为其施展的舞台,其商业想象空间将远超纯文本模型。
随着具备超强理解能力的全模态基座模型问世,整个多模态赛道将迎来一轮价值重估的拐点。
第三重,则是作为中国独立AI企业,其Pure-Play(纯业务)属性带来的估值弹性红利。
互联网大厂的AI业务,其价值往往被稀释在巨量的整体营收之中。阿里的MaaS收入占比目前仍处于低位,字节跳动的AI能力则分散在抖音、剪映等多条产品线中。市场的估值锚点很难精确地对应到它们的AI业务上。
但Minimax不同,其模型能力就是公司的主引擎,收入几乎完全来自于模型服务本身,没有被任何其他非AI业务稀释。这种纯度的差异,会显著放大其增长曲线的斜率。
这意味着,当大模型行业整体爆发时,Minimax的业绩弹性也会表现得更为剧烈。
简而言之,阿里巴巴证明了行业β(整体增长)的成立,逻辑已经闭环;谷歌正在推动全模态技术路线的α(超额收益);而Minimax所承接的,是中国AI领域独一份的、由自身特质决定的又一重α。
而即将到来的新一代模型升级,将是这场价值重估的冲锋号角。
在2025年的财报会议上,Minimax创始人兼CEO闫俊杰明确透露,今年上半年即将发布的M3及Hailuo 3相关模型,将迈入中长篇生产级内容的直接生成阶段,届时有望将平台的Token需求量,再提升一到两个数量级。
摩根士丹利则表示,M3有望在性能上匹敌世界顶级模型,并展现出卓越的多模态理解能力。
Hailuo 3则有望复刻Sora 2.0的生态位。高盛认为,海螺的下一代模型将在音视频同步、编辑能力、多分镜生成等领域实现质变,同时大幅降低普通用户的创作门槛。
更重要的是,Hailuo 3将是Minimax全模态基座的一部分。这意味着,它的技术路径将是与文本、图像、音频能力无缝融合,以实现更加复杂的多模态任务。
不久之后,我们将看到中国在全模态基座模型方向上,最接近Google理念的一次全新尝试。
正因如此,顶尖投行普遍将Minimax视为当前AI行业最具投资价值的标的之一。作为国内唯一一家实现全模态布局的独立大模型厂商,它不仅技术路线最接近Google的愿景,同时其增长潜力尚未被市场完全定价。
随着M3和Hailuo 3的发布窗口日益临近,Minimax的稀缺性正在从“技术叙事”加速转变为“财务现实”。待行业重估完成、新一代模型发布后,市场的判断可能会截然不同。

