2024年AI趋势解读：Google I/O后的开发者新指南

2026-05-21阅读 0热度 0

当前，AI编程（Coding）的商业价值已被市场广泛认可，这几乎成了行业共识。

“尽管我们上调了Token价格，客户接受度依然很高，需求持续旺盛，甚至当前供应仍无法完全满足需求，仍有大量客户在排队等待服务。”在阿里巴巴上周的2026财年第四季度财报会议上，CEO吴泳铭的这番话，无疑揭示了AI编程市场蛋糕的庞大。

至此，AI终于从炫酷的发布会，真正走进了企业的生产预算。阿里用实实在在的业绩，回答了市场的第一个核心疑问：AI到底有没有真实、强劲的需求？答案是肯定的。

紧接着，第二个更关键的问题浮出水面：AI的下一步，究竟会长成什么模样？

就在北京时间5月20日凌晨，Google I/O 2026开发者大会如期而至，给出了它的答案。

这届大会的焦点，毫无悬念地落在了“智能体”与“多模态”能力的全面展示上。随着Gemini Omni Flash的发布，Google为其下了一个精准的定义——一个支持任何模态输入，并能生成任何模态输出的模型。

大会上展示的视频生成能力仅仅是个开始。按照Google的蓝图，Omni的目标是实现文、图、音、视的全模态自由输出，并依托Gemini世界模型的能力，生成重力、动力学效果更为精确的物理模拟。

对Google而言，Omni不再只是一个单纯的视频模型，它瞄准的是成为真正的超级内容创作入口，进而嵌入所有创作者的工作流。这背后，是一个比当前AI编程想象空间更为广阔的多模态应用市场。

相较于文本编程，多模态内容创作才是AI世界里更富饶的矿藏。从行业通用定价来看，视频模型每百万tokens的价格，远高于图片和文本模型。这意味着，只要token调用量上去，视频所能创造的API价值将远超文本。

更重要的是，我们正站在一个历史性的技术拐点上。

对比早期那种将文本、图像、视频模型简单拼接的模式，到了2026年，以Google Gemini Omni为代表的“统一基座全模态模型”的出现，标志着行业即将迈入一个全新的纪元。

多模态，下一个Token拐点

OpenAI首席执行官Sam Altman或许也没料到，用户规模突破100万大关，发布初期的ChatGPT用了5天，而GPT-4o的图像生成功能，只用了1个小时。

凭借高度还原的吉卜力动画风格，GPT-4o的绘图功能一经上线便迅速爆红，迫使OpenAI不得不限制免费使用资格，甚至公开恳求用户“手下留情”，让开发团队能睡个好觉。

今年发布的图像生成模型Image 2，再次刷新纪录，一小时内全球新增用户突破180万。短短一周，其全球活跃用户数便超过1.2亿，直接带动ChatGPT Plus订阅量环比增长23%。

而年初Google Nano Banana 2的发布，则实现了在全球各项测试中“屠榜”的盛况。这款产品将一张细节丰富的4K图片生成时间，从分钟级压缩到了秒级。

截至目前，Nano Banana系列累计生成的图片已超过500亿张。有媒体评价称，Google正在终结一个属于Photoshop的时代。

毫无疑问，具备碘伏性的多模态模型，拥有“一锤定音”般的市场影响力。

回顾去年的Google I/O大会，VEO 3一鸣惊人，其生成的切水果视频席卷了TikTok。仅用半年时间，VEO 3生成的视频总量就突破了2.3亿条。当时便有媒体撰文指出，VEO 3挽救了谷歌那个季度的财报。

但更大的碘伏，显然还在路上。

就在前几天，有Reddit用户意外发现并分享了一段Gemini Omni的内部演示视频，瞬间引爆了全球AI社区：视频中，一位教师一边流畅地讲课，一边在黑板上写下复杂的数学公式，全程声音、画面、板书文字精确同步，丝滑至极。

有X平台用户评价道：视频模型的“Nano Banana时刻”恐怕要来了。

Gemini Omni的惊艳之处远不止于此。该模型支持一键去除视频水印、替换物体并自适应光影变化。从演示效果看，其在文字一致性、角色连贯性上，已经超越了以往所有的视频模型。

但凡体验过AI生成“火星文”或画面崩坏的用户都清楚，让AI产出文字清晰准确的内容有多困难，更不用说是在课堂上边讲解边书写数学公式这种高难度场景了。

与VEO相比，Google Omni是真正意义上实现“全模态输入、全模态输出”的模型。它支持用户混合输入任意模态的内容（如文字描述+图片参考），直接生成高质量视频，并支持通过对话进行实时编辑。

这意味着，Omni有能力将所有模态的分析与生成处理，在一个统一的模型内部闭环完成，而非调用多个独立系统进行后期拼接整合。

按照Google的定义，Omni是Gemini主架构的一次进化，将Gemini自诞生起就具备的原生多模态理解能力，从输入端扩展到了输出端。

相比之下，VEO和Nano Banana并非独立产品，它们更像是Omni这个“超级大脑”身上的能力组件。

在大会现场演示中，Google高管展示了具体的编辑场景——用户只需输入“把背景换成雪地”，模型就能实时替换视频环境；输入“改成从侧面跟拍的角度”，画面运镜随之改变；输入“加上一段旁白”，视频便能自动生成解说词并配以背景音乐。

自始至终，用户只需通过对话，就能像指挥一位资深剪辑师一样修改视频，且能精确到每一个细节，无需在不同工具或线程间切换，也无需重新上传文件。这彻底改写了VEO等上一代视频模型依赖提示词、多次“抽卡”赌运气的创作模式。

DeepMind首席执行官德米斯·哈萨比斯进一步表示，未来的Omni将能完成任意模态的输入及输出功能，其入口将覆盖Gemini应用、Google Flow和YouTube Shorts等产品，更强的Omni版本也会在后续推出。

背后的野心已昭然若揭。Google要打造的是一个真正的“世界模型”，没有媒介限制，没有模态隔阂，AI可以用任何人类能理解的方式与世界进行交互。它试图用一个模型，来定义AI的未来形态。

而支撑这份野心的基石，正是其全模态能力。

很多人尚未意识到，基于统一基座的全模态模型，在研发效率上其实更具优势。

在执行跨模态任务时，文本理解能力的提升，可以反哺图像和视频的生成质量，让内容更符合逻辑；反过来，图像和视频的海量训练数据，又能帮助模型更好地理解物理世界，从而提升文本推理和常识判断能力。

这是一个典型的1+1>2的正向循环。这也解释了为何杨立昆、李飞飞等AI领域的顶尖学者始终坚持认为，多模态世界模型才是AI发展的未来路径。

过去，市场的目光紧紧盯着AI编程（Coding），对多模态的认知和估值普遍不足。如今，这一思维范式正在被快速推翻。

摩根士丹利在近期的一份研报中指出，市场忽略了Minimax的潜在价值，其ARR（年化经常性收入）在2026年底有望达到10亿美元。一个重要原因在于，市场低估了多模态技术的商业价值，特别是大语言模型与多模态模型相互促进所带来的乘数效应。

这句话，恰恰点破了当前AI行业最大的一个视野盲区。

原生的五感全能战士？

将视线转回国内市场，一轮由技术驱动的新增长正在悄然酝酿。

摩根士丹利指出，中国的大模型市场已经走到了凸性爆发的拐点，有望复刻美国市场曾经的超新星爆发速度。原因有二：一是中国头部模型的能力已接近甚至超越此前的美国标杆产品；二是相比美国模型，中国模型的定价普遍更具优势。

放眼望去，国内主要玩家的现阶段叙事逻辑高度趋同：争夺“Claude平替”这个生态位，再寻找自身的独有优势，比如专攻长文本、或聚焦智能体、或强化推理能力，最后从订阅价格上卷出优势，试图在红海中杀出一条血路。

但这并非市场的全貌。

仍有玩家在技术路线上高度接近Google Gemini Omni的方向，有望在国内率先复刻这一生态位，它就是Minimax。

最近，高盛在一份报告中将字节跳动、阿里巴巴和Minimax三家并列讨论，依据是：在中国独立的AI厂商中，Minimax拥有独一无二的全面全模态布局，以及行业领先的高性价比、高灵活性的计算架构。

高盛：中国多模态模型持续进军全球，关注Hailuo 3

按照高盛的预测，M3与Hailuo 3模型的发布，将成为Minimax的重要里程碑。其文本API业务的毛利率有望达到40%，多模态API业务的毛利率更是可能达到60-70%，高于行业平均水平。

瑞银则将Minimax的目标价设定为1000港元，理由是随着多模态能力潜力的释放，不同模态间的协同研发，将带动训练成本的压缩以及模型能力的快速提升。

换言之，多模态研发为Minimax带来的远不止是产品矩阵的丰富，还包括一套更精细、更高效的工程框架。这将进一步降低企业使用模型的门槛，推动AI从开发者工具向普通用户的生产力工具扩展。

摩根大通给予Minimax“超配”评级，理由是看中其“技术实力、多模态商业化潜力与全球可扩展性三者结合的罕见特质”。

Minimax不仅是国内唯一同时具备“文本+图像+视频+音频+音乐”全栈自研能力的独立大模型厂商，而且其文本、语音、视频生成能力均已稳居全球第一梯队。

在过去，市场对“全模态”容易产生一种误解，仿佛那只是一张功能清单——文本、图片、视频、语音、音乐，五个格子都打上勾，便称之为全模态。

但事实上，全模态的真正价值，不在于“能做什么”，而在于“这些能力能否彼此增强、协同进化”。这是先天一体化路线与后天“打补丁”式升级的本质区别。

视频生成就是一个绝佳的例证。

一个纯文本模型声称自己理解物理世界，很难被直接验证。你让它写一篇关于苹果落地的文章，它能写得头头是道，但你永远无法确知它是否真正理解了万有引力。

但视频生成不一样，任何瑕疵都会在一秒钟内暴露无遗。手的位置对不对？物体运动的轨迹是否符合物理规律？镜头切换是否连贯？文字是否清晰准确？音画是否同步？只要一个地方出错，用户立刻就能察觉。

这是对大模型理解世界能力的终极考验。它不仅需要更强的空间理解能力，还需要因果推理、长程一致性以及多对象关系建模能力。而这些能力的锤炼，又会反过来提升其文本理解、智能体（Agent）和工具调用性能。

换言之，统一基座的全模态模型，不是五个独立模型的简单相加，而是一个有机的、能力互哺的整体。

这正是Minimax所选择的路线。从M系列大语言模型，到海螺（Hailuo）视频模型、Music音频模型，这种全模态自研+全模态落地的完整性，在国内独立AI企业中属于独一份。

这种底层碘伏性的、先天一体的技术路线，使得Minimax能够在更低的成本下，实现更流畅的“全感官”智能体验。

摩根士丹利测算，通过基础设施的深度优化，Minimax在8卡H800推理服务器上，每分钟可产生约1美元的收入，而成本低于0.3美元。相比之下，行业平均水平大约只有0.5美元/分钟。

其招股书中的一段数据更为直观：自成立以来，Minimax仅花费了约5亿美元，便站上了全球多模态能力的第一梯队。这个费用规模，大约只有OpenAI的1%。

其文本大模型M2发布时，在全球权威评测Artificial Analysis中拿下开源模型第一的成绩，其综合推理成本仅为0.53美元/百万Token，只有Claude 4.5 Sonnet的8%，而推理速度则是后者的两倍。

同时，在全模态模型的技术路线上，Minimax有能力让文、图、音、视频能力协同迭代，从而在迭代效率、训练成本与模型性能这个“不可能三角”中取得突破。

去年发布的Minimax视频模型，仅用约一个月时间，已帮助全球创作者累计生成视频超过6亿个；其语音模型则凭借全球顶尖的超低延时技术，累计生成语音超过2亿小时。

换句话说，凭借稳居全球第一梯队的多模态模型能力，Minimax的模型早已成为全球多模态领域不可或缺的核心基础设施之一。

Pure-Play的增长拐点

对于投资者而言，当前最关心的问题或许是：在这场全模态能力的大爆发中，谁将成为下一颗崛起的新星？

答案很可能指向展现出稀缺性资产特质的Minimax，它有望同时承接三重历史性的行业红利。

第一重红利，是阿里巴巴MaaS（模型即服务）业务业绩已经验证过的——Token量价齐升的行业β红利。

阿里巴巴2026财年财报显示，其包含百炼MaaS平台在内的AI模型与应用服务，ARR（年化经常性收入）已突破80亿元软妹币，预计到年底将突破300亿元。

吴泳铭的发言证实，智能体（Agent）市场目前处于供不应求的状态，卖方市场特征显著。这背后的市场逻辑已经完全扭转。

摩根大通指出，当前市场的主战场已经从单纯的Token价格竞争，转向了模型能力的比拼。在需求高度强劲的背景下，最优策略不是降价，而是提升模型能力。技术方向正确且迭代速度更快的玩家，将成为市场的引领者。

第二重红利，是Google全模态基座模型路线所催化的、多模态估值重估的行业α。

过去，纯文本模型公司享受了AI行情中的绝大多数估值溢价。而全模态基座模型的出现将碘伏这一认知——所有需要视觉、听觉、空间感知的场景，如教育、传媒、工业、医学、消费等，都将成为其施展的舞台，其商业想象空间将远超纯文本模型。

随着具备超强理解能力的全模态基座模型问世，整个多模态赛道将迎来一轮价值重估的拐点。

第三重，则是作为中国独立AI企业，其Pure-Play（纯业务）属性带来的估值弹性红利。

互联网大厂的AI业务，其价值往往被稀释在巨量的整体营收之中。阿里的MaaS收入占比目前仍处于低位，字节跳动的AI能力则分散在抖音、剪映等多条产品线中。市场的估值锚点很难精确地对应到它们的AI业务上。

但Minimax不同，其模型能力就是公司的主引擎，收入几乎完全来自于模型服务本身，没有被任何其他非AI业务稀释。这种纯度的差异，会显著放大其增长曲线的斜率。

这意味着，当大模型行业整体爆发时，Minimax的业绩弹性也会表现得更为剧烈。

简而言之，阿里巴巴证明了行业β（整体增长）的成立，逻辑已经闭环；谷歌正在推动全模态技术路线的α（超额收益）；而Minimax所承接的，是中国AI领域独一份的、由自身特质决定的又一重α。

而即将到来的新一代模型升级，将是这场价值重估的冲锋号角。

在2025年的财报会议上，Minimax创始人兼CEO闫俊杰明确透露，今年上半年即将发布的M3及Hailuo 3相关模型，将迈入中长篇生产级内容的直接生成阶段，届时有望将平台的Token需求量，再提升一到两个数量级。

摩根士丹利则表示，M3有望在性能上匹敌世界顶级模型，并展现出卓越的多模态理解能力。

Hailuo 3则有望复刻Sora 2.0的生态位。高盛认为，海螺的下一代模型将在音视频同步、编辑能力、多分镜生成等领域实现质变，同时大幅降低普通用户的创作门槛。

更重要的是，Hailuo 3将是Minimax全模态基座的一部分。这意味着，它的技术路径将是与文本、图像、音频能力无缝融合，以实现更加复杂的多模态任务。

不久之后，我们将看到中国在全模态基座模型方向上，最接近Google理念的一次全新尝试。

正因如此，顶尖投行普遍将Minimax视为当前AI行业最具投资价值的标的之一。作为国内唯一一家实现全模态布局的独立大模型厂商，它不仅技术路线最接近Google的愿景，同时其增长潜力尚未被市场完全定价。

随着M3和Hailuo 3的发布窗口日益临近，Minimax的稀缺性正在从“技术叙事”加速转变为“财务现实”。待行业重估完成、新一代模型发布后，市场的判断可能会截然不同。

2024年AI趋势解读：Google I/O后的开发者新指南

多模态，下一个Token拐点

原生的五感全能战士？

Pure-Play的增长拐点

相关阅读

最新教程

最新资讯