智能体创新应用与数智协同:高质量数据集建设行动方案解读

2026-06-19阅读 0热度 0
人工智能

(来源:国家数据局)

专家解读 | 智能体创新应用提速,开创数智协同新局面——《关于推进行业高质量数据集建设行动的实施方案》解读

文 | 阿里云智能集团副总裁 李俊平

人工智能正经历一场关键范式迁移:从通用对话迈向智能体自主执行。驱动这一变革的核心燃料——数据,其战略地位正被重新定义。正值此节点,国家数据局发布了《关于推进行业高质量数据集建设行动的实施方案》征求意见稿。时机精准:智能体技术正从实验室加速渗透至大规模产业应用。《方案》不仅为数据要素与AI的协同演进勾勒了清晰路径,也为云计算平台支撑行业高质量数据集建设构建了政策框架。

数据要素:驱动人工智能范式迁移的战略燃料

《方案》开篇即点明核心判断:行业高质量数据集是“推动‘人工智能+’赋能千行百业、实现产业落地的基础性、关键性资源”。这一定位直指本质——模型能力的边界,归根结底由数据质量划界。

从产业实践看,大模型正从“能说会道”向“能干实事”进化。2026年5月,阿里云发布旗舰模型Qwen3.7-Max,在夯实知识推理、语言理解等基础能力的同时,全面升级原生Agent能力,编程、推理多项测评比肩全球顶尖模型。支撑这一能力跃迁的底座,正是覆盖关键领域的高质量行业数据集——缺少行业数据的深度滋养,模型难以真正穿透千行百业的核心业务逻辑。

《方案》提出要“面向人工智能预训练、指令微调、强化学习、测评等各阶段,持续推进多模态高质量数据集建设”,这恰好切中行业痛点。当前,高质量数据集建设与AI发展需求之间的错位问题相当突出:一是数据质量参差不齐,多源异构数据加工标准不一,思维链这类隐性知识要么缺失、要么难以萃取;二是模型训练需求难以清晰描述,目标量化极为复杂,业务目标到数据需求之间存在转化断层;三是数据集与模型训练需求不匹配,领域数据集缺位,或整体分布不均衡、不匹配。《方案》部署的“强基扩容”“应用赋能”等行动,正是要打通供给侧与需求侧的瓶颈。

在实际操作中,数据价值的释放离不开基础设施支撑。阿里云推出的AI-Ready数据底座,通过一站式数据管理平台DMS等工具,实现多源异构数据的统一接入与治理,让企业数据能被AI Agent高效调用。这一探索与《方案》提出的“强化与数据基础设施建设有机联动”不谋而合——只有将数据基础设施与数据集建设深度耦合,数据才能真正从分散持有走向集约化、标准化供给。

智能体应用:为数智协同开辟全新赛道

一个值得关注的细节是:《方案》首次在国家级政策文件中明确提出“面向智能体等新型智能应用形态,加强知识库、知识图谱、本体等数据集建设,加快复杂任务规划、长程推理、人机交互、决策执行等数据集建设”。这意味着,智能体应用已从产业探索上升为国家战略布局的关键一环。

智能体是大模型走向产业落地的核心载体。与传统对话式AI不同,智能体具备自主感知环境、制定计划、调用工具、执行任务并根据反馈动态调整的完整闭环能力。产业实践正印证这一趋势——近期阿里云宣布全面迈入Agentic时代,打造了面向智能体的全新AI服务平台“千问云”,将150多款模型封装为Skills和CLI工具,为智能体开发提供全栈基础设施。

智能体为“数智协同”开辟了新赛道,具体体现在三个递进层次。

第一,智能体驱动“数据飞轮”加速运转。《方案》提出要“以模型应用牵引数据供给、以数据驱动模型迭代,打造‘场景—数据—模型’协同发展的良性循环”。智能体在执行任务过程中,持续产出高质量的交互数据、决策轨迹和工具调用日志,这些数据经结构化处理后,成为行业高质量数据集的重要来源。数据的角色已转变——不再是静态的“一次性消耗品”,而是在智能体应用闭环中持续增值的动态资产。

第二,智能体重塑了数据集建设范式。传统数据集建设依赖人工标注,成本高、效率低、覆盖面有限。智能体时代,数据集建设正向“模型预标注+人工校准”“模型预标注+模型检验”等智能化模式转型。阿里云百炼平台支持Agent自主调用企业数据,通过MCP协议实现“对话即分析”,大幅降低数据加工和标注的人力投入。《方案》提出的“推动数据标注从以人为主向人机协同转变”,正是这一趋势的政策确认。

第三,智能体催生了Token价值体系。《方案》前瞻性地提出“探索词元(Token)交易等新型交易模式,构建以词元为基础,可量化、可定价的数据集价值体系”。这与阿里云推出的Token Plan订阅模式形成呼应——当数据经过加工成为可计量的Token供给,数据的要素价值便有了统一度量衡。数据从“卖原料”跃升为“卖服务”,商业模式从数据包销售向API调用、模型化解决方案梯次升级。

依托智能体基础设施,加速建设高质量数据集

《方案》明确提出了到2028年底的建设目标:要“建成一批覆盖重点领域、经过应用验证的行业高质量数据集”“培育一批具备领先优势的创新型数据企业”。实现这些目标,需要强大的智能体基础设施作为支撑底座。

从阿里云的实践来看,智能体基础设施对高质量数据集建设的赋能体现在多个维度。

首先是构建AI-Ready的数据供给能力。阿里云提供从数据接入、治理到服务的全链路能力,支持企业将分散的业务数据快速转化为模型和智能体可消费的高质量数据集。通过沙箱隔离、并发处理等Agent原生能力,实现大规模数据的安全高效处理。这与《方案》提出的“推动数据集从分散持有向集约化、标准化供给转变”目标一脉相承。

其次是以全栈Agent能力降低数据集建设门槛。千问云将模型能力Skill化,开发者通过一行命令即可接入150余款模型,极大降低了智能体开发与数据集构建的技术门槛。配合自研真武M890芯片带来的三倍性能提升和低于150纳秒的时延,大规模数据标注、清洗、增强等任务的处理效率有了质的飞跃。《方案》鼓励的“加强数据清洗、增强、标注、对齐、质检等关键技术攻关和全过程自动化工具研发应用”,在智能体基础设施上已有坚实的产品化落地。

第三是打造“数据×智能体”产业示范。《方案》明确要求“打造一批‘数据×智能体’示范工程,树立高质量数据集成功驱动智能体解决实际问题的样板”。近期,阿里云与九大行业领军企业签约共建AI新生态,涵盖金融、制造、医疗、教育等重点领域——正是通过智能体实际落地应用,验证高质量数据集的应用价值,形成可复制的行业标杆。

最后是探索数据集价值化的新路径。依托百炼平台的Token服务,企业可通过订阅、按量计费等模式灵活获取和使用高质量数据集服务。这为《方案》提出的“发展‘订阅模式’‘商场模式’‘定制模式’等多元服务形态”提供了产品化实践样本,推动数据集从“资源”向“资产”的价值转化。

结语

《方案》的出台,体现了国家对数据要素与人工智能协同发展的深远战略考量。从产业实践角度看,其核心价值体现在两个层面。

政策层面,《方案》打通了从数据供给到模型应用的完整闭环,为智能体时代的“数据飞轮”提供了制度保障。高质量行业数据集的规模化建设,将成为我国人工智能从通用能力走向行业深度应用的关键突破口。

产业层面,《方案》以“数据×智能体”为抓手,推动数据产业与人工智能深度融合,持续催生智能经济新增长点。企业在使用智能体过程中积累数据、迭代模型、优化服务,形成正向循环的产业生态。

阿里云将持续发挥在智能体基础设施、大模型服务平台、AI-Ready数据底座等方面的技术积累和产业实践优势,积极响应《方案》部署,携手各行业伙伴共同推进行业高质量数据集建设,加快“数据飞轮”转动,为数智协同新局面贡献力量。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策