AI基础设施新方向:训推一体机深度评测与未来展望

2026-05-16阅读 0热度 0
其他

在超算领域,清华大学高性能计算研究中心长期致力于攻克大规模科学计算软件的核心难题。如今,这支团队正将其在超大规模集群调度与优化方面的深厚积累,全面应用于AI算力基础设施这一新兴战场。

“放眼国内AI基础设施赛道,我们是唯一拥有十万台服务器级别超大规模国产算力集群实战调优经验的团队。”清程极智CEO汤雄超博士强调。他指出,“大规模”是当前算力演进的核心瓶颈。业内热议的异构GPU混合训练,本质上是芯片供应受限时期的过渡方案。从长远效能与稳定性考量,智算中心架构最终将回归采用同型号GPU的同构集群,以实现极致的系统效率与可维护性。AI大模型训练的根本挑战,始终在于超大规模算力系统本身的工程能力。

基于这一前瞻判断,这支源自清华大学计算机系的团队于去年年底创立了清程极智,由汤雄超博士出任CEO,翟季冬教授担任首席科学家。

创业初期,团队不仅关注训练侧,也精准洞察到推理市场的巨大潜力。尽管训推一体机曾一度流行,但汤雄超认为其难以满足未来AI业务的弹性需求。“训练与推理对算力系统的架构需求存在本质差异。一个有限规模的一体机,无法承载当今动辄需要上万张加速卡协同的大模型预训练任务。”因此,清程极智选择为推理场景量身打造软硬一体的算力解决方案。同时,通过云端算力提供MaaS(模型即服务)形式的大模型推理,是其另一条关键业务路径。

这条路径会与通用大模型公司产生直接竞争吗?汤雄超认为,大模型应用市场即将迎来爆发式增长,一个足够庞大的生态完全能够容纳多家专注不同细分领域的厂商。他透露,公司成立半年多以来,在商业化层面已与多家芯片厂商、算力中心、AI应用开发商及基座模型研发方建立了深度合作。

值得注意的是,云厂商也位列其合作伙伴之中。汤雄超分析,云厂商的传统优势在于资源的池化与灵活共享,而当前AI大模型需要解决的却是大规模分布式资源的统一调度与高效合并——这方面的工程经验在市场上极为稀缺,而这正是清程极智团队的核心能力所在。

谈及国产芯片生态,汤雄超近期感受深刻。参照智能手机与新能源汽车行业的发展轨迹,他判断国产芯片市场未来会趋向集中,但不会形成单一垄断格局。并且,国产芯片在综合性价比上实现对海外产品的超越,或许只是时间问题。

壁垒在于超大规模集群调优

问:团队为何在去年底选择AI Infra赛道创业?有何契机?

汤雄超:选择这个赛道,源于我们对市场前景的明确判断与恰当的入场时机。核心契机来自我们的团队基因。公司目前40多人中,研发人员占比超过80%,核心技术骨干均拥有清华大学计算机系的科研背景。清华大学高性能计算研究中心长期服务于天气预报、气候模拟、石油勘探等需要极致算力的国家级科研项目。

随着人工智能进入大模型时代,我们发现AI面临的许多系统性挑战——例如万卡级集群的通信效率、任务调度与稳定性——与超算领域长期攻关的课题高度同构,而我们积累的跨节点大规模并行计算经验可以直接迁移。我们坚信AI将深刻重塑社会生产力,因此从商业角度看,这一领域空间巨大,且与我们的技术禀赋完美契合。此外,在美国对华芯片出口管制的背景下,投身于国产算力系统软件的建设,对我们这支清华团队而言,也承载着重要的产业使命。

我们进入AI Infra赛道,是基于清晰的商业逻辑与技术自信:AI对算力的需求呈指数级增长已是行业定论;同时,国内智能算力从依赖英伟达向国产化迁移是不可逆转的趋势。在这“需求爆发”与“技术转换”双重浪潮叠加的节点,国产算力生态的建设必然催生巨大的市场机会。

汤雄超在清程极智办公室 受访者供图

问:目前国内已有不少厂商布局AI Infra,清程极智的壁垒体现在哪里?

汤雄超:赛道参与者众多,对我们而言是利好。这首先印证了市场空间的广阔,足以支撑多家企业成长;其次,众多玩家的涌入,本身就说明了行业对AI基础设施方向战略价值的共识。

我们一个核心且难以复制的技术壁垒,在于超大规模集群的深度调优能力。这种能力直接决定了算力中心能否将昂贵的硬件资产转化为稳定、高效的生产力。我们团队在十万台服务器级别集群上的实战经验,是区别于其他厂商的关键优势,而这项能力的构建门槛极高。

据我们了解,目前国内AI基础设施厂商中,具备同等规模国产算力集群全栈调优经验的团队,仅我们一家。即便是万卡乃至十万卡级别的超大规模模型训练,当前有实际交付能力的团队也凤毛麟角。因此,这构成了我们坚实的技术护城河。事实上,除了业界普遍关注的推理优化,我们还具备超大规模模型训练的系统级优化能力。

问:清程目前主要与哪些类型的厂商合作?

汤雄超:我们专注于AI基础设施层,即算力基础软件系统。常有人将Infra比作桥梁,一端连接底层硬件,一端承接上层应用。我们的核心价值就是高效连接这两端,确保各类大模型能在多样化的芯片上发挥最佳性能。

我们的客户也主要分布于这两端。一端是算力供给侧,包括芯片原厂,以及智算中心的建设方与运营方。总体而言,国产算力系统的软件生态成熟度与CUDA等国外体系仍有差距,我们的价值在于帮助芯片厂商补齐软件栈短板,充分释放其硬件潜能。

对于算力中心而言,情况类似。当前大模型训练动辄需要调度上万张加速卡,如何将如此大规模的集群长期稳定地运行在高效状态,是巨大的工程挑战。我们帮助算力中心盘活超大规模集群资产,不仅提升了其商业竞争力,从社会效益看,也显著提高了国家算力基础设施的整体利用率,避免了资源闲置。

对于AI应用侧,我们提供的核心价值可概括为“提速降本”。目前大模型在问答、文生图等场景的响应延迟,仍是阻碍应用落地的关键因素。我们通过自研的高性能推理引擎,在同等硬件条件下大幅提升模型运行速度,部分场景下响应延迟有近百倍的优化。这不仅改善了终端用户体验,也直接降低了算力消耗与运营成本。

此外,我们也服务于基座大模型的预训练客户。模型预训练本身是算力与时间的“吞金兽”,一次训练往往耗时数月、耗资数千万。我们的优化方案能将训练性能提升百分之几十,为客户节省数百万乃至上千万的算力开支。一方面,训练周期的缩短加速了模型迭代;另一方面,对于千万量级的算力成本而言,50%的节省意味着巨大的经济效益。目前,我们的客户矩阵已覆盖芯片厂商、算力中心、AI应用公司及模型预训练厂商。

问:与云厂商是合作还是竞争关系?

汤雄超:我们与云厂商存在差异化的能力优势。事实上,在一些传统文本大模型的预训练项目上,我们已经与国内头部云厂商展开了合作。

云厂商自身拥有强大的技术团队,他们选择与我们合作,根本原因在于过去与现在需要解决的核心问题不同。以往云厂商运维大规模集群,主要目标是实现资源的精细化池化与多租户共享,本质上是将单块GPU的算力进行虚拟化分割,以同时服务海量用户与任务。

而现在大模型训练需要解决的是“聚合”问题——让成千上万块GPU像一个整体一样,为单一用户、单一任务协同工作。这种超大规模单一任务并行计算的经验,即便在大型科技公司内部也极为稀缺,因为国内原本具备大集群并行计算背景的人才就少,再叠加国产芯片这一新变量,相关人才储备更是捉襟见肘。

问:公司目前的融资情况如何?

汤雄超:我们在今年初完成了首轮融资,预计年内将完成新一轮融资。

围绕推理引擎的核心布局

问:模型推理是清程的重点之一,你们的MaaS平台具体有何布局?

汤雄超:我们MaaS平台首期上线了文本对话服务。除了提供常规的百亿参数以内模型,我们还免费开放了720亿参数的国产中文大模型供用户体验。该模型完全运行在国产算力平台上,我们将成本优化到了极具竞争力的水平,相比使用英伟达算力有显著的成本优势,因此能够支撑免费服务。

近期我们还上线了文生图功能,其界面完全兼容国际流行的ComfyUI工作流,特别适合设计师等专业用户进行精细化创作。

后续我们将持续扩展服务能力。随着AI应用向多模态演进,我们计划逐步上线视频生成等更复杂的模型服务。

清程极智 MaaS平台

问:这种通过MaaS平台售卖大模型API的方式,是否意味着在与通用大模型公司竞争?

汤雄超:当前大模型行业的业务边界尚在动态形成中,存在一定竞争是市场早期的正常现象。众多参与者涌入,恰恰证明了赛道价值获得了产业与资本的双重认可。我坚信大模型应用市场将迎来指数级增长,在一个未来规模足够庞大的市场中,同一细分领域完全能够容纳多家具备独特价值的厂商。

对我们而言,MaaS平台是展示清程推理加速能力的一个窗口,能让潜在客户以最低成本体验我们的技术效果。清程的核心能力并不局限于MaaS这一种交付形式。我们的产品矩阵包括推理一体机、可独立部署的推理引擎软件,以及深度定制的解决方案。

问:您提到的一体机是指训推一体机吗?

汤雄超:我们提供的是推理一体机,而非训推一体机。训练业务从本质上就不适合一体机这种产品形态。

训练与推理的业务属性差异巨大。很难想象一个机柜规模的一体机,能够承载当今需要上万张加速卡、持续数月的分布式训练任务。这类任务只能在大型智算中心级别的集群上完成。

我们的推理一体机,是针对客户私有化部署需求提供的交钥匙方案。当客户有明确需求时,我们可以基于对不同芯片特性的深刻理解,帮助其选配最具性价比的硬件组合。我们与多家国产芯片厂商保持紧密合作,有时比客户更清楚特定的大模型推理负载更适合哪款芯片。我们也观察到,部分客户存在算力选型不合理的情况,例如采购了更适合训练的A100显卡来运行推理服务,导致硬件优势无法发挥,成本居高不下。

问:你们MaaS平台上能选择英伟达和国产两种算力加速Qwen2-72B-Instruct推理,具体是哪些卡?

汤雄超:英伟达方面我们选用其主流的推理卡型,国产卡则选用在推理场景上与英伟达对标的产品型号,实际性能表现符合预期。

虽然平台目前标注了英伟达和国产算力选项,但根据我们的产品路线图,未来会考虑隐藏这部分信息。因为实测数据表明,经过清程系统深度优化后,国产算力平台的性能已非常接近甚至在某些场景下优于英伟达平台。因此,未来用户无需关注底层算力差异,这也符合我们公司“兼容并优化多样算力基座”的核心理念。

问:清程官网上还有几个与推理引擎相关的服务显示暂未上线?

汤雄超:公司目前仍处于快速发展的初创期,主要精力聚焦于核心研发与商业化落地,官网内容更新略有滞后。推理引擎是我们的基石产品,它是一个完全自研的高性能系统软件,核心目标是降低模型推理延迟或提升吞吐率,从而全面提升效能,并且其设计支持包括英伟达和主流国产芯片在内的多种硬件平台。

由于市面上主流开源框架大多基于英伟达CUDA生态构建,用户若想迁移到国产芯片,要么面临繁重的移植工作,要么只能放弃使用,体验并不顺畅。我们提供的正是能够原生兼容多款国产芯片的自研推理引擎。基于这一核心软件,我们衍生出MaaS平台和推理一体机两种产品形态。

具体而言,如果客户已自备硬件,只需采购我们的软件授权即可部署;如果客户没有硬件,则有两种选择:一是直接调用我们的MaaS平台API服务;二是有私有化部署需求的,我们提供软硬一体的推理一体机解决方案。

智算中心最终将回归同构

问:当前国产芯片厂商众多,异构混训概念也很热,你们有涉足这方面的计划吗?

汤雄超:我们也在进行异构混合训练的相关研发。但根据我们在超算领域的长期观察,采用不同品牌、不同架构加速卡的异构集群,其整体系统效率与性价比通常低于采用单一型号加速卡的同构集群。混合训练很难让底层异构硬件的算力同时达到峰值状态。

从商业本质看,异构混训更像是当前国产芯片产能与生态尚未完全成熟背景下的一种务实折中方案。回顾HPC(高性能计算)行业数十年的发展,全球范围内的超算中心,其内部计算节点通常采用统一的加速卡架构。当然,不同超算中心可以采用不同品牌的卡,但每个集群内部架构是高度一致的。

因此,随着国产芯片产能提升、生态完善,我认为智算中心的架构最终也会回归到更偏向同构的模式,因为单一架构在工程实现上可能是最高效、最稳定的解决方案。总体而言,在当前大规模并行训练的课题下,异构混训的技术挑战相对可控,更艰巨的挑战仍然在于“超大规模”系统本身的复杂性。举例来说,让10张英伟达卡与10张其他品牌卡混合训练,其工程难度远低于让10万张同品牌卡协同稳定训练数月。

问:所以您认为国内GPU芯片厂商未来会从分散走向整合?

汤雄超:我们与沐曦、燧原、天数、摩尔线程等多家国内芯片厂商都保持着合作关系。各家厂商在不同维度上各有优势,产品迭代速度也非常快。从长远市场规律看,可能会出现一定程度的集中,但国内市场恐怕很难形成像美国那样一家独大的格局。

因为中美市场生态存在差异。参照智能手机和新能源汽车等行业的发展路径,美国市场往往由少数几家巨头主导,而国内市场则呈现出“多强并存”的格局。中国市场规模更大,应用场景也更为多元。未来芯片厂商可能会经历整合,但未必会收敛到只剩一家,最终很可能仍会保留数家具备核心竞争力的主要玩家。

问:现阶段您在国内有比较看好的芯片厂商吗?

汤雄超:目前有几家厂商在产品和生态建设上表现突出,但国内芯片行业技术迭代迅猛,未来哪家能在性能上持续领先并最终胜出,目前还难以断言。

问:您认为GPU是目前算力的最优解吗?

汤雄超:这取决于如何定义“最优解”。GPU架构已经过长期验证并形成了庞大生态,沿着这条已被证明成功的路径继续深化,是顺理成章的选择。但归根结底,硬件是为上层应用服务的。如果未来AI算法范式发生革命性变化,以至于现有GPU架构无法高效适配其计算特征,那么全新的芯片架构就有可能脱颖而出,成为新的主流。

历史上有过类似先例。曾经人们认为嵌入式处理器市场空间有限,但随着移动互联网爆发,原本主导服务器市场的x86架构,在移动端被Arm架构实现了超越。算力硬件的格局始终由上层应用的需求驱动。如果应用发生巨变,底层算力格局必然随之重塑。不过,就当前以大模型为代表的AI技术发展路径而言,我认为GPU或类GPU架构仍是现阶段最合适的选择。

问:海外涌现出不少做专用芯片(ASIC)的厂商,但国内仍以瞄准GPU为主,专用芯片厂商较少。您认为对国内而言,专用芯片会是机会吗?

汤雄超:我认为在专用芯片与通用芯片的战略选择上,国内外的底层逻辑是一致的。当某一类上层应用(例如Transformer推理)变得至关重要且规模巨大时,业界自然会考虑为其设计专用芯片,从而在特定任务上获得极致的性能与能效。但同时,由于AI算法仍在快速演进,业界也希望能有通用性强的芯片来保证对未来技术的适应性。这两条技术路线并非简单的替代关系,更可能长期并存。总体来看,我认为国内市场将会呈现通用GPU与领域专用ASIC芯片共同发展的局面。

问:CUDA被视为英伟达的护城河,也有观点认为它其实是“泥潭式”的。您认为国内应如何构建自己的护城河?

汤雄超:“泥潭式”护城河这个比喻非常形象。我认为国内要构建自己的护城河,必须从国产算力生态的实际痛点与需求出发寻找突破口。试图完全复制一套CUDA,打造所谓的“CUDA 2.0”,不仅工程难度极高,其必要性也值得商榷。我们建设算力系统的根本目标是高效支撑上层应用。如果仅仅为了“复制”而复制,可能投入巨大而收效甚微。但如果能紧扣上层应用(尤其是国产大模型)的特定需求,进行针对性的优化与增强,我们无需照搬整个CUDA生态,目标更聚焦,任务也更明确,国产算力系统反而更容易建立起独特的竞争优势。

目前国内很多厂商在做CUDA兼容性工作。如果这种兼容性能将CUDA生态中成熟的软件、模型和开发经验平滑地迁移到国产算力平台,大家当然都乐于推进。至于未来是否存在“兼容CUDA反而强化了CUDA生态”的潜在风险,目前还难以做出定论,需要持续观察。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策