广东数据炼化实践:AI时代如何高效萃取“数据石油”
如果把AI大模型比作一台精密的引擎,那么驱动它高效运转的“燃料”是什么?答案很明确:高质量数据集。这可不是普通的“燃料”,它被誉为AI时代的“数据石油”,其纯度与品质,直接决定了模型输出的智能水平与可靠性。
就在5月20日,一场聚焦于“炼油”与“供油”的关键活动在广州落地。这场高质量数据集与数据标注产业供需对接活动,作为全国数据标准化技术委员会“标准周”的广东特色环节,释放了一系列重磅信号。广东省不仅启动了国企高质量数据质效提升行动和第二期高质量数据集创新大赛,发布了全省数据产业图谱,广州人工智能数据训练基地也正式揭牌启用。这一连串动作,目标直指一个核心:打通从数据资源到产业应用的供需堵点,为数字经济的新质生产力注入高能动力。
今年正值“十五五”规划开局,也被业界视为“数据要素价值释放年”。面对数字化浪潮带来的空前机遇,广东正全力推动数据基础设施的升级,意图通过精“炼”这批珍贵的“数据石油”,驱动整个产业能级实现跨越式跃升。
图为活动现场,企业人员操控机器人抓取水瓶并采集数据。
20家试点国企将联合上下游伙伴“炼油”
高质量数据集是什么?它指经过系统采集、清洗、标注和结构化处理,可直接用于训练与优化AI模型的数据集合。其核心在于高准确性、完整性、一致性和时效性。对于大模型而言,高质量数据集如同经过精炼的高标号燃油,是释放模型潜力的关键。
相反,若让AI模型直接处理大量原始、未经处理的“数据原油”,极易导致模型产生偏见、逻辑混乱或输出错误信息。因此,数据的“炼化”流程,是提升其纯度和商业价值的必经环节。
广东的策略清晰务实:从数据资源富集的国有企业切入,快速构建高质量数据集的供给能力。国有企业掌握着海量关键领域数据,是释放数据要素价值的核心力量。
活动中,广东省政务服务和数据管理局联合省国资委,正式启动了国企高质量数据质效提升行动。南方电网等2家央企,省能源集团、交通集团、粤海集团等6家省属国企,以及广州交易集团、深圳智慧城市科技集团、珠海正圆控股等12家市属国企,共计20家单位,获颁了试点任务书。
这批龙头企业将聚焦智能制造、智慧交通、清洁能源、现代金融等重点行业,联合产业链上下游伙伴开展数据协同开发。目标是精准对接人工智能研发、企业降本增效、产业智能化转型等实际需求,形成“场景定义数据、数据驱动应用、应用反馈优化”的闭环,打造一批可复制、可推广的数据资源开发利用标杆案例。
向全社会征集产业创新发展的高质量“燃料”
在激活国企存量数据资源的同时,拓宽社会化供给渠道同样关键。广东省政务服务和数据管理局党组书记、局长王天广透露,广东计划年内组建省级数据集团,旨在强化公共数据授权运营与开放,推动公共数据与社会数据的融合创新。
同步推进的,是持续举办高质量数据集创新大赛。此举旨在向全社会广发“英雄帖”,征集创新解决方案。大赛坚持“真实需求、真实数据、真实应用、真实流通、真实推广”的原则,紧扣重点行业的发展痛点,目标是持续产出符合实际业务场景需求的高质量数据集。
回顾2024年底在东莞举办的首届大赛,成果显著:吸引了近700支队伍参赛,覆盖高校、科研院所及各类企业。经过评审,不仅9支队伍获奖,更催生了超百份高质量数据集或解决方案,覆盖能源管理、工业质检、生物医药等多个领域,有效赋能了产业实践。
本次活动特别设置了第一期优秀项目的路演与供需签约环节,超过10个项目现场达成合作意向。随着第二期大赛及广州市高质量数据集征集活动的同步启动,全社会的数据创新活力将被进一步激活,为AI产业发展持续输送高纯度“燃料”。
在展示区,不少企业带来数字产业最新成果。
数据产业图谱系统梳理产业链结构与布局
广东的数据产业家底有多雄厚?数据显示,全省拥有超过6.6万家数据相关企业,占全国同口径企业总数的15%以上,已形成覆盖数据采集、存储、处理、分析、交易、安全及基础设施的完整产业链。
活动中发布的《广东省数据产业图谱》,以可视化方式清晰呈现了产业链核心企业的分布,并遴选出具有代表性和技术引领性的标杆企业,系统梳理了广东数据产业的家族构成、空间布局与链式协作关系。
同期发布的还有广东省国家数据产业集聚区建设试点成果。其中,东莞宣布了专项扶持政策,计划三年投入5000万元,志在打造全国产业发展标杆;广州黄埔区聚焦“数据要素×”和“人工智能+”行动,全力构建数字经济核心引擎;广州天河区启动了产业赋能中心;深圳前海则开启了集聚区建设,并探索电池护照合规出海等数据跨境新通道;深圳南山区上线了数据产业服务平台,启动了服务中心建设。
通过对数据生态的持续培育与优化,广东正着力塑造一个特色鲜明、优势互补、协同发展的产业格局,以期更深度地融入并服务全国一体化数据要素市场。
作为本次活动的另一大亮点,广州人工智能数据训练中心正式启用。作为全国要素市场化配置综合改革试点城市,广州在数据要素市场化改革上持续深化,通过出台系列政策、建立公共数据资源“一本账”、深化授权运营机制,已初步形成了市场响应积极、运营高效顺畅的良好局面。
此外,全国首个由司法、行政、平台三方共建的专业化涉数据纠纷调解平台——广州数据纠纷调解E站也同期启用。该平台将围绕数据权属界定、流通交易争议、个人信息保护等关键场景开展深度协作,为数据要素的合规、高效、安全流通提供保障。

