对话清程极智核心团队：优质Token筛选指南

2026-05-27阅读 0热度 0

核心团队

一家源自清华大学高性能计算研究所的AI基础设施公司——清程极智，近期系统性地披露了其技术布局与产品矩阵。这家成立于2024年底的初创企业，核心团队在高性能计算领域拥有深厚积累。截至今年3月，公司已完成三轮融资，投资方包括北京市人工智能产业基金、联想创投及中科创星等机构。

目前，清程极智的产品线已覆盖AI训练、推理与应用服务的全流程，推出了智能计算软件栈“八卦炉”、大模型推理引擎“赤兔”，以及大模型服务评测与API调度平台“AI Ping”。其团队重点分享了在Token服务优化与国产推理引擎构建方面的核心实践。

Token经济爆发：如何规避成本陷阱与性能风险

进入2026年，“Token经济”已成为AI产业的核心议题。数据显示，全球Token日调用量已从2024年初的约0.5万亿，激增至今年3月的300至600万亿，增幅近300倍。中国市场增长更为迅猛，同期从0.1万亿飙升至140万亿，实现了1400倍的跃升。

驱动这一增长的核心在于应用形态的演进。当前头部AI应用中，智能体（Agent）占比已超80%。与单轮对话不同，Agent的多步执行特性导致其Token消耗量呈倍数增长。此外，AI编程等工具类应用也产生了巨大的调用需求。

中国成为Token经济沃土，得益于供需两侧的同步发力。供给侧，智算中心与超算中心持续扩容；模型侧，DeepSeek、GLM、Kimi等优秀国产模型加速开源与部署。需求侧，从企业到开发者，对Token的需求真实且旺盛。

然而，市场爆发并未自动带来体验优化。Token常被类比为“水电煤”，但其服务质量存在显著差异。当前国内市场已有数十家Token供应商，服务质量参差不齐，用户选择面临多重风险。

这些风险主要集中于三个方面：

首先是模型效果不一致。即便是同一版本的DeepSeek模型，在不同服务商处的输出效果也可能存在波动。

其次是实际成本不透明。标价与生成Token数相同，最终成本可能相差数倍，这背后与缓存命中率直接相关。技术扎实的服务商能有效复用计算结果，而技术薄弱者则需重复计算，导致用户实际获取的有效计算量大幅缩水。

最后是服务质量不稳定。新兴厂商的响应延迟问题突出，理想情况下的3-5秒响应，在现实中可能延长至30秒甚至300秒，严重影响业务可用性。

综合来看，不同服务商在首Token延迟、吞吐量、上下文长度支持等关键指标上，表现差异可达数倍。选择不当将直接导致资金浪费与业务稳定性下降。

为解决上述痛点，清程极智于今年一月推出了AI Ping平台。该平台被开发者称为“大模型API服务的大众点评”，核心解决两大问题：通过7×24小时持续评测生成客观性能榜单；通过统一API与智能路由提升效率、降低成本。

AI Ping通过“真实用户视角”与“端到端匿名评测”确保公正性。平台使用动态输入机制进行多地域、全天候测试，防止服务商针对固定测试集优化。其评测结果与主流云厂商监测数据交叉验证，误差可控制在1%以内。

实际数据显示，借助AI Ping，Token服务成本可降低超过37%，吞吐量提升超90%，延迟降低超20%，服务可用性达99.99%以上，对标一线云厂商服务质量。

海量实时评测数据构成了智能路由的基础。AI Ping的智能路由系统能实时感知各链路延迟与成本，动态规划最优调用路径，实现不同模型间的优势互补。用户可根据需求选择成本优先、性能优先或均衡模式。

该服务对中小企业价值显著。大型企业具备多服务商采购与评测能力，而广大中小企业则面临高昂的技术与资源门槛。AI Ping旨在填平这道鸿沟。

在底层推理引擎层面，清程极智推出了名为“赤兔”的生产级大模型推理引擎。推理引擎是运行在AI算力芯片上的核心程序，负责将大模型参数转化为实际对话能力，相当于模型的“操作系统”。

优秀的推理引擎需同时满足精度、吞吐量、低延迟、资源效率与稳定性等多重严苛要求。“赤兔”引擎由清程极智联合清华大学团队自主研发并开源，其特点是从第一行代码开始即为自研，并深度面向国产芯片架构进行优化。

在适配国产算力方面，“赤兔”并未简单挪用vLLM等现有技术。团队深入分析了国产芯片与英伟达芯片在计算单元、数据表达及通信方式上的本质差异，进行了针对性突破。例如，通过软件层创新支持FP8、FP4等低精度量化，在无硬件支持的国产芯片上有效降低了计算成本。

“赤兔”这类国产推理引擎，正在国产算力与国产模型之间架起关键桥梁，完善从芯片到应用的生态链条，是推动AI推理体系自主可控的重要一环。

在技术趋势方面，团队指出当前AI基础设施的许多技术源于高性能计算领域，如流体力学模拟与药物设计。清华大学高性能所在此已有数十年积淀。

关于国产算力生态，可参考英伟达早期通过向高校赠送GPU培育开发者的策略。当前国产芯片厂商各自建生态，清程极智希望服务整个国产算力生态的共性需求，避免重复建设。

芯片能力的充分发挥依赖于系统软件的深度优化。国产算力的适配涉及算子库、编译器、并行方案等多个层面，核心目标是最大化芯片的有效计算时间，减少数据搬运与通信等待开销。

对于“Token是否会越来越便宜”的讨论，从供需与调度效率看，单次推理成本的下降不意味着Token资源不再紧缺。长上下文、多轮交互等新型应用正驱动需求快速增长，算力供给增速难以完全匹配。

提升现有算力利用率成为关键。通过AI Ping的智能调度，可以更高效地匹配动态变化的算力供需，以更合理的价格获取并交付Token，从而提升整体资源利用率。

在大模型技术路线上，行业共识是上层架构远未收敛。未来的模型未必局限于当前的自回归范式，例如基于扩散机制的语言模型提供了不同路径。多模态能力的统一也是重点探索方向。行业仍在积极寻找下一代更优的模型架构。

随着大模型进入规模化应用阶段，其背后基础设施的效率正成为竞争新焦点。谁能以更低成本、更高稳定性与更优质量提供Token服务，谁将在下一轮竞争中占据优势。

同时，国产算力生态建设加速。行业关注点正从单一的芯片性能，转向“芯片+软件栈+推理引擎+应用生态”的整体协同与系统级优化。这场关于效率与自主可控的深度竞赛，已然开启。