影眸科技Hyper3D获数亿元融资,3D生成迈入“思考时代
2026年开局,3D生成赛道的竞争烈度远超预期。
影眸科技率先在第一季度推出首个3D编辑模型Rodin Gen-2 Edit,让AI生成的三维模型首次具备可编辑能力;紧接着6月,VAST官宣新一轮融资,Meshy也声称发布了全球首款3D AI Agent。而最近,这支从学术圈起步、成立早、团队极度年轻的影眸科技,带着最新技术成果与融资动态,再度点燃行业热度。
团队成立于2020年,创始人兼CEO吴迪、联合创始人兼CTO张启煊,以及另外两位联合创始人张龙文、曾初啸,均毕业于上海科技大学。团队约60人,平均年龄不足25岁。
年轻却不影响其在B端市场的统治力——影眸的B端客户数量和收入,超过赛道内其他公司之和。客户涵盖字节跳动、Unity、Figma、Canva等头部企业,海外收入占比约80%。
学术层面同样硬核:提出定义主流AI 3D架构的原生生成方案CLAY,连续多年斩获计算机图形学顶会SIGGRAPH最佳论文及提名,算法团队中每两人就有一人获得或提名过最佳论文。
《智能涌现》独家获悉,近日影眸科技完成数亿元新一轮融资,由凯辉基金、上海国投先导联合领投,老股东持续跟投。在此之前,字节跳动、美团龙珠、红杉、蓝驰已相继入场。
伴随本轮融资,影眸发布了最新一代3D生成模型——Hyper3D Rodin Gen-2.5,将语言模型的“先思考再生成”范式引入3D生成。针对不同生产场景,Gen-2.5提供可调节的精度模式。这是全球首个千万面级3D生成模型,最快4秒即可生成百万面模型,同时推出全球首个12K精度原生3D贴图模型。
长期以来,影眸面向B端及专业C端,提供平台订阅、B端API售卖、私有化部署、直接交付最终资产等服务,落地场景覆盖电商、3D打印、游戏、工业设计、具身智能等领域。
面对竞争,影眸策略清晰:主攻海外市场、服务专业C端用户,同时强化生成过程的可控性。
值得关注的是,Rodin Gen-2.5发布后,C端收入反超B端。上线首月,订阅用户与ARR环比增速均超400%。
C端的爆发,恰好击中影眸最核心的命题:AI 3D能否被用户真正用起来?
“学术出身的人容易陷入惯性,觉得技术论文很厉害,市场为什么不用?但实验室输出与可落地产品之间存在巨大鸿沟。”吴迪如此解释。
弥合这条鸿沟的关键在于:生成的模型必须符合使用标准,用户必须能控制3D生成结果。
为此,影眸几乎把编辑自由度给到了极致。平台上,用户可通过自研的3D ControlNet控制生成结果的长宽高和形状;模型生成后支持二次编辑,即使是第三方模型也能改;还支持自然语言局部修改,以及资产分件,分件后还能再分。
△影眸科技3D资产的分件能力,图源:企业官方
在影眸看来,这些看似复杂、需要反复确认和控制的流程,恰恰是用户选择他们的理由。
“我们对3D生成的用户群体有预判。大部分愿意付费的用户,正是对‘可控’有刚性需求的人。我们要先服务好真正会买单的人。”张启煊谈到,“3D生成的落地应用,已从追求观赏质量,迈入可控、效率与质量并重、贴近实际生产的下半场。”
在预训练阶段就做好模型的可控性设计
经历元宇宙赛道萎缩和2023年的资金困境后,2024年,原生3D生成方案CLAY的研究和提出,彻底改变了影眸乃至整个赛道走向。
当时,行业几乎都围绕“2D升维3D”的技术路径——先生成多视角图像,再建模为3D资产。这一模式的缺陷明显:存在不可逆的信息丢失,生成的模型很难真正用于工业设计、游戏等严苛领域。
但影眸认为,生成的3D资产是否达到Production-Ready(生产就绪)才是关键。于是他们做了反共识的决定:用3D数据从头训练原生3D模型。
这条路无人走过,但他们跑通了。
2024年,影眸团队提出全球首个产品化3D原生大模型框架CLAY,通过算法和框架的底层创新,将3D生成效果从不可用变为可用。该研究提名当年SIGGRAPH最佳论文。同年年中,基于CLAY架构,他们发布了全球首个3D原生模型Rodin Gen-1。这也是行业主流技术路线转向的分水岭,越来越多团队转向3D原生路线。
影眸对其3D模型有两个最核心要求:可控性和质量。
其中,可控性是影眸打出的明牌。“对专业创作者来说,可控性是选择我们的首要原因。”张启煊说。实现可控性的关键在于,预训练阶段就把相关设计融入进去,与模型底层一同生长。从Rodin第一个版本起,他们就引入了3D ControlNet等可控能力。
此后,影眸持续加码产品的可控性,包括支持局部修改、自动拆分不同部件,以及分件后继续分件,目的都是减少用户抽卡次数,提升生成过程中的可控性。
Rodin Gen-2.5首次在3D生成领域引入类似大语言模型的Test-time Scaling(测试时缩放)策略。通过自适应的可调节Thinking Effort(思考力度),用户可选择模型的思考时间和深度。它支持五档思考深度,耗时从4秒到80秒不等,对应从快速草稿到高精度资产。在Extreme-High模式下,模型能实现千万面数生成,还原皮肤微结构、纹理、毛孔等特征。
△Rodin-2.5的五档思考深度,图源:企业官方
不仅如此,影眸同步推出了原生3D贴图模型。与传统投影法生成材质不同,该模型能解决颜色断层、浸染等问题,清晰保留Logo、文字等信息。从几何生成到贴图,最快只需5秒。这块贴图模型具备图像生成级别的能力,材质纹理可无死角覆盖,文字效果提升显著,支持基于物理的PBR材质。配合12K原生3D贴图模型,生成效果在几何精度与材质保真度上已能超越实景扫描,断代式领先行业水平。
另一个关键点——质量,影眸用一系列研究成果证明了这一点。
自CLAY之后,他们相继推出CAST、BANG等成果。前者可用一张图片生成包含物体和物体关系的完整3D场景;后者则能实现3D资产的分件。其中,CAST研究论文斩获SIGGRAPH 2025最佳论文奖。同期在该领域拿到最佳论文的商业公司,全球仅谷歌、Meta和影眸三家。
作为唯一连续多年获得SIGGRAPH最佳论文及提名的商业公司,影眸自2020年以来在顶级学术会议及期刊上发表30多篇论文,其中70%的科研成果已走向落地。具体体现在产品迭代上:近两年,影眸的模型实现了四次重要迭代——从Rodin Gen-1,到具备拆件能力的Rodin Gen-2,再到有局部编辑功能的Rodin Gen-2 Edit,以及今年6月发布的Rodin Gen-2.5。
谈及AI 3D的未来,吴迪表示,未来一至两年内,公司会继续做两件事:一是精进底层模型的生成质量,二是拓展编辑、Agent化等能力,让模型在专业领域越来越顺手。
服务最专业的用户,解决最真实的问题
AI 3D的商业化路径仍在被行业验证,但在影眸看来,这是一份可持续的好生意。
单看模型训练的算力成本,对Rodin而言,整数倍版本模型的迭代需要千卡级训练。但得益于自身算法架构积累,相比同行,影眸训练出一个同级别模型的效率大幅领先。
过去一年,企业级营收的质量与可持续性,正逐步取代消费级用户规模,成为衡量AI公司长期价值的核心维度——以Anthropic为代表的企业级路线,已被视为这一趋势的典型样本。影眸在收入端走的正是类似路线,其积累的B端客户营收超过同赛道其他公司总和。
客户侧,影眸的B端订单分布在游戏、电商、工业设计、具身智能、空间计算等多个高价值场景。C端用户则主要是Pro-C(专业级消费者),如建模师、3D打印爱好者、产品设计师。
影眸团队判断,未来3到5年,3D生成仍主要由专业用户使用。无论是语言模型、图像模型还是其他模型,都很难从绝对效果上完全分出高下。对于3D生成赛道,大众真正关心的是:模型厂商能否满足下游行业需求。
“我们研发出来的东西需要接入后期流程中使用。所以我们必须做Production-Ready的东西,让它能直接进入影视、游戏等场景的后期流程。”吴迪说。
正因如此,影眸把产品设计成生成过程中可逐步确认、满意后再付费的模式。这种模式,源于他们对自身模型可用性的自信。
在影眸的客户列表里,有不少具身智能公司。他们把影眸的3D资产作为训练数据,生成仿真环境和资产。
谈到赛道里正热的“世界模型”,张启煊说,撕开这个标签,大家主要在做两件事:一是实时视频生成,比如Google的Genie-3;二是可仿真的环境,包括资产、模拟器等,以及做类似自动驾驶、机器人策略的执行器。在世界模型版图里,影眸偏向于做可仿真资产。平台上有一个功能叫Sim-Ready,用户点击后可直接在英伟达的仿真环境里做物理仿真。
具身智能对3D生成模型的要求包括几个层面:一是物理反馈,如重量、碰撞体等,这些已上线到产品;二是可互动资产,比如3D资产分件后如何动起来,在这块影眸也做出了相关学术成果。
单纯用视频生成做世界模型,很可能让模型难以从视频中学到真实物理世界的维度关系。这正是3D的优势所在——能理解物品之间的位置关系、视角角度连续性好、能在模型里做物理模拟。
吴迪认为:“未来的世界模型,需要让机器真正学到与真实世界一致的场景。其背后,很可能是3D生成与视频生成混合的模式。”
“3D生成的赛道正在收敛,而收敛意味着,最终只有少数真正解决了产业问题的团队能留在牌桌上。过去一年,市场习惯用用户规模和增长曲线衡量AI公司价值。但3D生成会是游戏、影视、工业设计乃至物理世界智能化都绕不开的底层能力。我们服务最专业的用户,解决最真实的生产问题——这个选择决定了我们今天的领先,也决定了我们未来要去定义,而不只是参与下一代3D生产工具的规则。”

