Midjourney首款AI硬件产品深度评测
当一家以图像生成见长的AI公司宣布进军硬件,其战略意图值得深挖。
近日,Midjourney创始人David Holz在社交媒体上发布消息:“开始发出第一批Midjourney硬件产品发布邀请,还有少量名额。”这家长期保持低调的AI图像生成平台,正式向外界释放了进入硬件领域的明确信号。
从2024年8月公开表态“正式进军硬件”,到如今发出首批邀请,近两年时间,Midjourney完成了从纯软件服务到软硬件一体化的关键转型。更令人关注的是:这家从未接受风险投资、团队规模不足百人、仅靠订阅制实现年营收5亿美元的AI图像生成头部玩家,其硬件产品的真实形态究竟如何?
Leap Motion与Vision Pro:硬件基因的源头
要理解Midjourney的硬件战略,创始人David Holz的履历提供了重要线索。他早年联合创办手势追踪公司Leap Motion并担任首席技术官,直至2019年公司被收购。这段经历为Midjourney注入了最早的硬件基因。
2024年初,Midjourney引入前苹果Vision Pro硬件工程经理Ahmad Abbas执掌硬件部门。Abbas的履历包括在Neuralink负责硬件设计、在苹果深耕5年参与Vision Pro头显工程研发,更早之前还在Leap Motion担任硬件工程师。可以说,这支硬件团队的核心成员均出身于顶级硬件项目。
Holz曾在公开对话中透露,Midjourney计划打造一个名为“Orb”的设备。此后,团队硬件研发重心始终围绕3D数据捕捉方向展开。他将Midjourney的图像模型形容为“运行极慢的游戏引擎”,并承诺未来能以每秒60帧的速度生成体积感十足的3D世界。这种对交互形态的前瞻预判,才是驱动硬件战略的内在逻辑。
软件巨头为何执意涉足硬件
回溯2021年,Midjourney在旧金山成立,此后仅凭订阅收入实现惊人增长:2023年营收约2亿美元,2024年攀升至3亿美元,2025年达到5亿美元,估值飙升到100亿美元。而团队规模长期维持在数十人,早期核心团队仅11人,人均产出远超500万美元。
这样一家“轻资产”公司,为何选择踏入“重资产”的硬件赛道?答案隐藏在两大趋势中。
一方面,生成式AI正从“云端重算力”向“端侧轻推理”迁移,2026年被行业视为端侧AI市场的关键爆发节点,AI手机、AI PC等形态加速落地。另一方面,静态图像生成的天花板已触手可及。
2024年底,Midjourney发布的Patchwork平台已展现出多人协作世界构建能力——支持最多100名用户在无限画布上实时共创,并明确提及未来路径包括“完全沉浸式的3D虚拟现实场景”。问题随之浮现:当平台有能力生成惊艳的3D世界,用户该用什么设备进入?现有VR头显生态支离破碎,Midjourney想让自己的3D视频内容被真正消费,自建硬件入口就成为最激进的解法。
值得注意的是,Midjourney在硬件选择上曾走过弯路。2023年公司采用Google Cloud TPU训练第四代模型,但后续对这一决策感到后悔,认为若更早全面拥抱Nvidia GPU生态,或许能加速研究进度。这个教训,某种程度上也促成了其自建硬件的决心。
更深层的原因在于,Midjourney的核心壁垒是美学品位与社区生态。正如iPhone定义了触控交互标准,Midjourney或许想通过硬件定义AI原生内容的消费范式。
那么,那枚“Orb”究竟是什么?
在近两年的筹备期中,外界对产品形态的猜测从未停止。综合已披露信息,可以梳理出几个关键点:
形态上,“Orb”项目名称暗示产品可能采用球形或圆形设计,极可能是一种沉浸式空间显示装置,而非简单的头戴设备。
功能上,它很可能是AI原生的空间计算设备,聚焦于创意消费与沉浸体验——让用户“走进”自己用提示词生成的世界,或用自然手势与AI共创3D内容。
定位上,官方曾在推文中明确回应,其硬件“不会是一个吊坠式设备”。考虑到Midjourney的订阅用户以专业设计师、艺术家和创意工作者为主,这款硬件很可能首先面向创意产业和极客发烧友。
另外,David Holz曾表示公司正在同时推进3到4个硬件项目,这意味着产品线可能不止一种。
AI硬件的重构期
放眼整个行业,谷歌、Meta等大厂都在推进各自的AI终端战略,谷歌甚至在多模态图像模型领域直接与Midjourney正面交锋。过去两年里,部分AI硬件创业公司已用代价证明:做一款成功的消费级AI硬件,难度远超想象。从供应链管理、品控到渠道建设和售后服务,硬件生态的每个环节都是对“轻模式”公司基因的重大考验。
不过,也有不少AI硬件品牌初步证明,成功的关键在于找到AI能力与传统硬件形态的最佳耦合点,百万级的突破机会确实存在。
在Holz的判断中,Midjourney的核心使命是“放大人类精神”(amplify the human spirit)。图像生成模型完成了从“文字到视觉”的第一步,V7模型和Draft Mode提升了生成效率,而硬件,则可能成为从“视觉到空间”的第二步。这才是真正的看点所在。




