中文互联网语料 AI 资源平台发布:27 个数据集、总量 2.7T
中文互联网语料AI资源平台发布:27个数据集、总量2.7T
最近行业里有个值得关注的新动向。1月9日,中国网络空间安全协会正式发布公告,面向社会推出了“中文互联网语料资源平台”。这个平台相当“贴心”,支持按行业领域、内容模态、体量规模等多种标签进行分类,方便用户精准定位和下载所需资源。
根据协会说明,这项工作是在中央网信办的指导下,联合国家互联网应急中心共同推进的。简单来说,这次并非从零开始,而是在之前发布的“中文互联网基础语料1.0”版本基础上的一次重要升级。通过专业委员会建立的共建共享机制,平台汇聚了一批新的高质量可信数据。当然,这些数据并非直接“拿来就用”,而是经历了一套相当严格的“体检”流程——包括信源筛选、内容过滤、数据去重等细致的数据加工处理。最终诞生的成果,便是正式对社会发布的中文互联网基础语料2.0,规模达到120GB,包含数据条目3800万条。
目前,这个平台已经初具规模。具体来看,平台共入驻了27个语料数据集,数据总量约2.7T。这些数据主要来源于三个方面:
- 首先,当然是中国网络空间安全协会与国家互联网应急中心等单位联合建设的中文互联网基础语料,这是平台的核心基底。
- 其次,也吸纳了来自人民网、北京智源研究院、上海人工智能实验室等机构共享的互联网语料,丰富了数据的多样性。
- 最后,还有一批“重量级”的贡献者,包括中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等单位,它们提供了优质的中文基础语料样本,极大地提升了语料的权威性和专业性。
对于有兴趣获取这些资源的用户,流程也很清晰。只需访问中国网络空间安全协会官网,在首页找到“中文互联网语料资源平台”的入口,完成注册和认证等相关程序后,便可以下载所需的语料数据。
对于此次发布,网安协会人工智能安全治理专业委员会的负责人给出了明确的定位。他指出,数据是人工智能发展的基础和关键资源。中文互联网基础语料2.0的发布,标志着各界协同共建高质量中文语料库取得了又一阶段性成果。可以预见,专业委员会后续将持续推进语料建设工作,目标很明确:为国内人工智能领域的技术创新和产业健康发展,提供更坚实的数据支撑和保障。
