视频模型隐形成本全解析:专家推荐避坑榜单
这场竞赛注定只有巨头才能留在牌桌上。
AI的高昂投入早已不是新鲜事。xAI耗资超过10亿美元搭建Colossus超算集群,OpenAI每月承担的算力账单高达数亿美元,Anthropi通过多轮融资吸纳的资金,在公众眼中几乎等同于海量的GPU算力。行业内外的讨论焦点始终锁定在算力上。GPU已成为衡量AI公司核心实力的硬通货,也是每篇融资报道里最显眼的数字载体。
然而,近日一期播客中透露的细节,让人猛然意识到行业可能一直算错了账。xAI前研究员Ethan He在Latent Space的采访中分享了一段亲身经历:他于2025年年中加入xAI时,面对的是毫无基础设施、零数据储备、无现成模型的创始阶段,仅凭一支小团队与三个月时间,便从零构建起Grok Imagine视频生成系统,并达到当时业内的顶尖水平。
当话题转向训练开销时,他随口报出的一组数字彻底改变了语境:单是每月存储视频与特征数据的费用,就要几百万美元——这还不包括算力支出。
账单里的隐性开销
从零开始训练一个视频大模型究竟要多少预算?即便假设团队资金雄厚、GPU算力无限供应,这种高昂成本仍可能被大幅低估。
假设需要训练一个顶尖水平的视频生成模型,从互联网抓取10亿条视频,每条平均5MB——这已是非常保守的估算。仅此一项就需要5PB存储空间。按照AWS S3标准存储定价,每月成本大约10万美元。
然而这仅仅是原始视频。在训练之前,行业通行的做法是用VAE将视频压缩为“潜在空间”的特征向量——一段视频以像素展开可能包含数十亿个token,任何Transformer都无法直接处理,必须压缩为模型可读的连续向量。问题在于,这些压缩后的特征数据规模与原始视频相当,同样需要长期存储并随时待命。两者叠加,数十PB的存储每月费用轻松超过20万美元。
最令人意外的是数据进出费用(egress/ingress)。Ethan指出,在AWS上,从互联网下载10亿条视频所需的带宽成本甚至高于存储这些视频的费用。每一次训练,数据都必须从存储层传输到计算层重新过一遍。视频模型的训练不像语言模型那样可以一次搞定——需要迭代优化、调参测试、尝试不同的数据配比,每一次实验都意味着全量数据重新流动。实验次数越多,该项支出就成倍增长。
综合估算,Ethan的判断是:仅在数据这一环节,每月就要花费几百万美元。而GPU的费用,还根本没开始计算。
这笔开销,几乎从未出现在AI行业的公开报道中。
无法承受的带宽成本
像xAI这样自建Colossus数据中心的公司,在存储与带宽上是否节省了大量开支?Ethan坦率回应:“当然,省了很多。”这句话背后,揭示了视频AI领域一个鲜少被讨论的结构性隐患。
大语言模型的训练数据由文本构成,体量轻便,训练完成后原始数据基本完成使命——无需反复拉取全量语料用于推理或微调。但视频数据完全不同:其体积比文本大几个数量级,而且每一次训练实验都必须将全量数据完整加载一遍。迭代速度越快,数据搬运成本越高;而迭代速度正是视频模型研发中最核心的变量。
这就形成了一个相互钳制的困局:你需要快速迭代来提升模型质量,但快速迭代意味着频繁搬运数据,而频繁搬运数据在公有云上产生的账单足以压垮团队。
Ethan本人的职业轨迹就是最好的注脚。他在NVIDIA参与构建Cosmos世界模型时,逐渐意识到视频模型与语言模型类似,存在“规模定律”,仍有巨大提升空间。他当时面临的选择,表面上看似“需要更多GPU”,但一个同样关键的因素虽未明说,却已体现在行动中——他需要一个不必按AWS账单付费的地方来存储和搬运数据。这正是他加入xAI的根本原因之一,而Colossus为他提供了这样的环境。
对于没有自建基础设施的团队,这笔账非常清晰:每月数百万美元的数据成本,叠加在GPU算力之上,意味着即便拥有一流的算法团队和充足的融资,只要还在使用公有云,就是用无底洞般的账单与对手的自建机房赛跑。这道门槛,不是一家拥有优秀算法的创业公司靠“技术取胜”就能跨越的。
视频模型的护城河不是模型
这恰好与半导体行业的底层逻辑形成某种呼应。台积电难以被撼动,不仅因为有更优的设计,更因为新建一座晶圆厂需要数百亿美元的前期投入。视频AI的护城河,正是那数十PB的数据基础设施以及每月滚动产生的带宽账单。
Ethan在播客中还补充了一个更为深刻的推论:视频模型的“智能”,大部分实际上来源于背后的语言模型,而非视频扩散模型本身。视频扩散模型相对“笨拙”——它只会严格按文字描述生成画面。输入“一只猫”,它就生成一只猫,静立于纯白背景前,一动不动,因为你没有告知背景和猫的行为。真正理解用户意图、将“一只猫”扩展为精细镜头语言描述的,是背后那个负责“提示词重写”的LLM。Ethan回忆起在Cosmos时期,曾用一个“快乐的羊”做测试:不经过提示词重写,生成画面极其CGI、毫无真实感;加入重写后,效果判若云泥——而整个视频扩散模型本身没有任何改动。
这意味着,一家公司在视频AI领域的竞争力,不只取决于视频模型的参数规模,更在于能否同时支撑语言模型与视频模型这两套基础设施,并实现高效协同。这是一场比拼综合工程实力的竞赛。
下一个战场,早已划定
当然,整个行业也在积极探索出路。提示词重写的Agent化、让语言模型像“指挥官”一样调度多个视频生成工具、利用FFmpeg这类传统软件处理中间环节——这些方向的共同逻辑在于:将语言模型的推理成本与视频扩散模型的生成成本分层计算,使每一次视频生成调用更加精准,从而减少无效计算与数据搬运。
Ethan对“视频Agent”的发展方向极为笃定。他预测今年年底将出现一个重要拐点——当Agent生成的视频质量能够稳定达到“可投放商业广告”的水平,企业才会真正愿意为其买单,整体成本结构也会随之演变。
但有一点不会改变:谁掌控了数据的存储与流转,谁就掌握了这场游戏的起点。在AI赛道上,“真正的壁垒”每隔一段时间就会轮换一次。先是参数量,然后是训练数据规模,接着是对齐技术,随后是推理效率。如今,视频AI正在揭示下一道壁垒——并非某种神秘的算法突破,而是一份冷冰冰的基础设施账单。
这笔账,从一开始就没打算让所有人都能负担得起。
