国家数据局:AI行业数据集建设新形态
6月8日,国家数据局正式发布《关于推进行业高质量数据集建设行动的实施方案》。核心要点明确指出:围绕人工智能应用场景,必须丰富行业高质量数据集的构建形态。换言之,数据供给不再局限于“有什么用什么”,而是要精准适配AI不同演进阶段的实际需求。
具体而言,方案锁定多个关键发力点。首先,多模态数据集需持续扩展——文本、代码、图像、音频、视频等常规类型自不待言,点云、时序数据、科学数据等更专业的类型同样被列入重点建设清单。这些数据集将覆盖人工智能从预训练到指令微调、强化学习再到测评的完整生命周期。
其次,知识库、知识图谱、本体等结构化知识资产的战略地位显著提升。方案明确要求加快复杂任务规划、长程推理、人机交互、决策执行等数据集的构建——这显然是为智能体(Agent)等新型智能应用形态铺路。可以理解为,仅有“死数据”远远不够,还需要能够支撑逻辑推理与动态决策的“活知识”。
值得关注的亮点是,方案专门针对具身智能场景作出部署。就物理交互、环境感知、运动控制等环节,需加速建设真机交互数据集。同时,积极利用仿真模拟与合成技术来扩大数据供给——这对机器人训练而言是一条高效路径,毕竟真实环境下的数据采集成本高、周期长。此外,方案还前瞻性地提出面向世界模型等前沿方向推进数据集建设,体现出对下一代AI架构的全局布局。
