国家数据集管理服务平台上线,能否缓解AI“数据饥渴”?

2026-04-30阅读 0热度 0
ai

数据饥渴时代,国家平台如何为AI“解渴”?

“有多少数据,就有多少AI能力;数据质量越好,AI能力就越强。”这句话在AI行业已是共识。就在近日的第九届数字中国建设峰会上,宇树科技创始人王兴兴再次强调了数据的关键作用:但凡拥有足够高质量数据的领域,现有AI技术基本都能解决问题。他同时指出,像人形机器人这样的前沿领域,数据依然十分稀缺,亟需大量高质量数据来支撑。

无独有偶,蚂蚁集团研究院院长李振华在同一场合也谈到,高质量的标注数据,如今已成为制约模型智能上限的一大痛点。特别是在那些专业垂直领域,国内大模型与海外同行相比,在高质量标注数据的积累和构建上,差距依然明显。

那么,如何缓解整个行业的“数据饥渴”,加速高质量数据集的建设和流通呢?一个国家级平台给出了新的答案。


国家数据集管理服务平台正式首页。

4月29日,从国家数据局传来消息,国家数据集管理服务平台在数字中国建设峰会上正式发布并启动试运行。这标志着我国高质量数据集建设工作,迈入了集约化、平台化管理的新阶段。用户只需访问平台官网,就能进入一个全新的数据资源世界。

目前,平台已汇聚了1000余个数据集。用户可以根据模态(文本、图像、音视频、3D等)、领域、行业或供给方进行筛选,也可以主动发布自己的数据需求。浏览一下需求专区,就能感受到市场的热度:北京国际大数据交易所在4月9日提交了“具身智能训练数据”的需求,目标场景是家居操作;科大讯飞则发布了“中文情感对话数据”的需求,希望获取累计不低于1000小时、涉及不低于1000人的两人情感陪伴对话数据。目前,这些需求的状态都显示为“待洽谈”,等待着合适的供给方来对接。

这个平台究竟服务谁?根据国家数据局的介绍,其核心用户有三类:一是为数据管理部门提供数据集目录管理和建设情况监测功能,提升管理效能;二是为数据集供给方提供发布、凭证申领和质量测评等服务,赋能高质量数据集建设;三是为数据集需求方提供查询检索和需求发布通道,加快数据集的流通与利用。可以说,它旨在打通供需两侧,构建一个高效的连接枢纽。


国家数据集管理服务平台正式页面。

数据正在以前所未有的速度赋能人工智能创新。峰会期间发布的《全国数据资源调查报告(2025年)》显示,国内已建成的高质量数据集数量超过11万个,总规模突破908拍字节(PB),全年词元调用量约达21100万亿。一个明显的趋势是,市场对数据的需求,正从基础语料向更深度的行业高质量数据集快速拓展。

“当前,人工智能正处于从‘可用’迈向‘好用’的关键跃升期。”国家数据发展研究院副院长袁军分析道,“高质量数据集作为大模型训练的‘基石’,其供给规模和质量,直接决定了人工智能的创新高度和产业落地深度。”

然而,理想丰满,现实却仍有骨感之处。袁军指出,国内高质量数据集的建设和流通,客观上仍面临三大痛点:一是建设主体分散,管理部门难以全面掌握资源底数;二是供给侧信息不对称,容易导致重复建设和质量参差不齐;三是需求侧获取成本高、周期长,拖慢了技术创新的效率。正是为了破解这些难题,国家数据集管理服务平台应运而生。

据了解,该平台由国家数据局指导、国家数据发展研究院建设和运营,目前已开放供需发布、全域检索等基本功能。更关键的是,它已与国家数据基础设施及安徽省等地方平台完成对接。袁军透露,未来平台还将联通国家公共数据资源登记平台、国家数据产权登记服务平台,并支持更多地方与行业平台对接,最终形成国家级平台牵引、多方协同的一体化格局。

下一步怎么走?平台的规划很清晰:持续扩大用户范围,广泛调动各类重点供需主体,快速提升用户与资源规模。预计到2026年底,全面建成一个覆盖数据集全生命周期、贯通各地区各部门的一体化管理服务体系。

可以预见,国家数据集管理服务平台的正式登场,有望有效破解高质量数据集的建设痛点,打通供需流通的堵点,为人工智能的规模化应用注入一股强劲而持续的动能。

采写:南都N视频记者李玲 杨柳 发自北京

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策