中国算力规模全球第二,最新榜单揭晓
国家数据局近日在国新办发布会上公布了“十四五”期间的关键进展,数据密度极高。核心指标如下:截至2025年6月底,我国算力总规模稳居全球第二位;建成的高质量数据集总量突破3.5万个,累计数据体量达400PB。这一规模意味着,相当于将数千万册藏书的全部文字、图表、影像信息进行了完整的数字化与结构化处理。
算力与数据集为何如此重要?它们构成人工智能发展的双引擎,尤其是高质量数据集,直接决定模型智力水平的上限。国家数据局局长刘烈宏在发布会现场举例说明:在医疗健康领域,使用标注精准的高质量医学影像数据集训练模型,疾病诊断准确率可提升超过15%。这一提升幅度已具备明确的临床辅助决策价值。
中国是首个将数据定义为生产要素的国家,这一先行者定位决定了不能被动等待数据自然增长。实际推进路径是:国家层面持续“自上而下”地系统化推动高质量数据供给。例如,出台专项指导文件,多部门联合推进落实,依托全国数据标准化技术委员会制定配套标准与技术规范,并在全国范围内组织一批先行先试的典型解决方案。
这种体系化推进已见成效。一个显著趋势是:当前国内绝大多数模型训练使用的中文数据占比已超过60%,部分头部模型甚至达到80%。这意味着模型正在大量吸收本土化的中文语料,中文高质量数据集从数量到质量的提升,正直接驱动国内AI能力的跃升。
与此同时,模型训练催生出活跃的数据交易市场。数据显示,截至2025年6月底,各地高质量数据集累计交易额逼近40亿元,数据交易机构挂牌的高质量数据集总规模达246PB。值得关注的结构性转变:以北京数交所为例,高质量数据集在总交易量中的占比已从去年的仅10%飙升至近80%。这反映出市场正在用实际行为投票——相比“有没有数据”,大家更看重“数据质量”。此外,上海、天津、安徽等地正在试点“数据语料作价入股”模式,允许优质企业将数据集折算为股权,直接参与相关企业的建设。
关于下一步工作,刘烈宏明确了清晰的战略方向:通过体系化布局持续推进高质量数据集建设,重点聚焦具身智能、低空经济、生物制造等前沿领域。更关键的一步是推动全社会形成数据要素的价值认同,鼓励更多人认可并愿意为优质数据付费。这不仅是技术突破问题,更是建立市场共识的系统工程。
