国家首次发文!高质量数据集建设聚焦24重点,夯实人工智能底座
数据要素正成为AI时代的核心驱动力,而高质量智能数据则是构筑这一时代的关键基石。2026年作为“十五五”规划开局之年,国家层面首次系统部署数据如何驱动人工智能发展,交出了一份清晰的行动方案。
6月8日,国家数据局正式发布《关于推进行业高质量数据集建设行动的实施方案》。这份文件围绕行业高质量数据的供给、流通、应用等核心环节,规划了六大专项行动,为数据高效支撑人工智能创新绘制出明确路径。
几个关键判断值得关注:高质量数据集不仅是训练和优化AI模型的基座资源,更是释放数据要素价值的重要载体。中国信通院人工智能研究所副总工程师闫树指出,这一方案是落实国家“人工智能+”战略、培育数据要素市场的关键举措。当前,人工智能已发展至大模型、智能体、具身智能等新阶段,数据已从辅助角色跃升为驱动创新的核心生产要素。该方案聚焦行业高质量数据集,本质上是在夯实AI发展的数据底座。
六大专项行动:覆盖全生命周期的系统性部署
算力、算法、数据是人工智能的三大支柱,其中数据正是制约当前AI发展的最大短板。随着“人工智能+”进入规模化落地与产业深耕期,行业高质量数据集的需求水涨船高。
《实施方案》明确的六大专项行动分别为:强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放。闫树分析认为,这六项行动并非各自为政,而是围绕行业高质量数据集建设的全生命周期,形成连贯的闭环布局。它们环环相扣,构建起一条“资源汇聚—加工治理—质量提升—场景应用—规范管理—价值释放”的完整链条。
具体来看,每项行动都有明确的任务指向。强基扩容行动解决“数据怎么供给”的问题,核心是推动行业数据资源的汇聚与规模化供给;标注攻坚行动解决“数据怎么加工”的问题,通过高质量标注提升数据的可训练、可学习、可应用水平;提质增效行动解决“数据好不好用”的问题,依靠质量评估与治理优化机制,增强数据集的可信度;应用赋能行动解决“数据怎么用”的问题,驱动数据集在行业大模型、智能体及重点场景中真正落地;管理服务行动解决“怎么管”的问题,完善标准规范与平台工具;价值释放行动解决“价值怎么兑现”的问题,推动数据资源向数据资产转化,探索流通交易与价值实现路径。
值得注意的是,在强基扩容行动中,《实施方案》明确划定了24个具体行业领域。其中既包括科学研究、工业制造、农业农村、智慧能源、交通运输等19个重点行业,也纳入了低空经济、具身智能、智能驾驶、智慧海洋、生物制造等5个创新领域。
闫树对此分析道,对于重点行业,高质量数据集是推动智能化升级的基础。例如在工业、医疗、交通和能源领域,高质量数据能支撑行业大模型与智能决策系统的研发应用,从而带动生产效率提升与资源配置优化。而创新行业面临的局面略有不同——如具身智能、低空经济、自动驾驶等前沿领域,发展势头迅猛,但普遍缺少专业数据和场景数据。《实施方案》将这些方向纳入重点支持范围,目的在于加快形成数据驱动创新、场景牵引应用的发展模式,推动新技术、新产品加速落地。
高质量数据需求升级:从补充资源到产业刚需
行业高质量数据集为何突然成为焦点?
在中国发展高层论坛2026年年会上,国家数据局党组书记、局长刘烈宏给出了形象判断。他指出,随着人工智能从基础大模型向行业大模型纵深拓展,与实体经济的结合度日益加深,行业高质量数据集正在取代通用语料,成为决定模型落地效果的关键变量。换言之,唯有推动AI与各行各业深度融合,技术势能才能真正转化为发展动能。
国家数据发展研究院院长胡坚波撰文指出,AI技术正加速渗透各行业,高质量数据需求呈现爆发式增长。一个值得关注的趋势是,互联网公开数据的挖掘空间持续收窄,模型能力的进一步提升必须依赖金融、医疗、工业等领域长期积累的专有、非显性化数据。在此背景下,行业高质量数据集已从“锦上添花”变为“产业刚需”。此外,具身智能、世界模型等新范式要求机器理解物理世界的空间结构与运行规律,这又催生了对3D、视频等多模态数据的大规模需求,同时对数据采集与标注的质量标准也提出更高要求。
诺亦腾机器人市场公关负责人檀煜鑫向记者表示,具身智能要让机器人在真实世界中感知、决策和执行,离不开大规模、多模态、高精度的真实数据。但这类数据获取成本高、场景覆盖少、标准化程度低,这些短板直接制约了行业从“演示”走向“落地”。在他看来,具身智能下一阶段的竞争关键,不止是机器人本体本身,更在于能否形成高质量、可复用、可流通的数据资产。《实施方案》从供给、标注、提质到应用的全链条部署,相当于为具身智能搭建了国家层面的基础设施支撑。当高质量数据集不再是各家公司自采自用的“孤岛”,而是形成标准化、可流通、可跨本体复用的产业资源,规模化落地才有可能真正提速。
事实上,近期国家连续出台的多个人工智能领域文件,均提及高质量数据集建设。4月底,工信部与国家数据局联合印发的《关于联合实施2026年“模数共振”行动的通知》,明确提出面向钢铁、石化化工等20个领域,产出推广价值高、技术可行性强的人工智能应用场景,并构建一批行业通识与行业专识的高质量数据集。而6月10日工信部印发的《“人工智能+信息通信”创新发展实施意见(2026—2028年)》中,同样明确要求在信息通信领域的重点场景打造一批高质量数据集。
刘烈宏在前述演讲中明确表示,国家数据局已将2026年定位为“数据价值释放年”。聚焦数据赋能人工智能创新发展,将通过深入实施六大行动,力争形成一批更好满足AI就绪度要求、能有效训练先进模型或智能体、真正解决行业难题的高质量数据集。目标清晰:实现供给的量与质双提升,让人工智能深入千行百业,加速与实体经济的深度融合。