词元成为智能时代水电煤:专访国家数据发展研究院袁军深度解读

2026-06-06阅读 0热度 0
袁军

一组数据揭示AI落地的真实规模:中国日均词元调用量已突破140万亿。这个数字相当于每天产出的内容量,能生成超过1.7万部《流浪地球2》级别的电影。背后传递的信号很清晰——人工智能已脱离实验室验证阶段,全面渗透进生产与生活的每一个环节。

国家数据发展研究院副院长袁军近期就词元如何重构AI商业模式、高质量数据集的构建路径,以及算电协同的破局策略接受了深度访谈。作为国家数据局首家正局级事业单位,国家数研院通过国家数据集管理服务平台,推动数据从“静态仓库”转型为“动态燃料”,力图破解行业内长期存在的“结构失衡、精度不足”等核心痛点。

袁军的核心论断直击要害:AI竞争的焦点正转向词元的使用效率;算电协同亟待打破“安全、绿色、经济”的不可能三角;打通西部绿电与东部算力的供需梗阻,需要从顶层机制设计上寻求突破。

词元:AI时代的核心计费单元与价值标尺

今年以来,Token(词元)的关注度持续飙升。日均调用量突破140万亿,意味着中国AI模型每天的信息吞吐量,如果全用于生成4K、24帧高清电影,足以产出超1.7万部《流浪地球2》。如此庞大的词元消耗量印证了一个事实:AI已从技术概念彻底演变为生产工具。词元,正充当智能时代的“水电煤”,并从根本上重塑AI产业的商业模式。

过去企业采购软件,要么一次性买断,要么签订年度订阅合同。如今按词元结算的模式开始普及,像支付水电费一样,按实际用量计费。在智能经济体系中,词元统一了交易的计价语言,使数据要素的流通能够实现自动计量与结算。以往评价产品表现依赖“日活”“月活”指标,而在AI时代,厂商不仅要争夺用户规模,更要比拼在最小词元消耗下解决最复杂问题的能力。谁能实现这种效能均衡,谁就能掌握市场的定价主导权。

词元的引入也为数据集建设带来了产业视角的升级,将数据从“静态存储资源”转变为“动态智能燃料”。过去用GB、TB衡量数据集,遵循的是“仓储逻辑”;现在切换至词元单位,就像从“按斤论价”转变为“按营养成分估值”。当词元成为全行业统一的计费标尺,构建基于词元的数据价值体系就有了可行性。数据不再是一次性交易,而是有望成为能够参与利润分配的资产。

数据经过词元化处理后,未来的数据集建设必须从“盲目堆砌”转向“精准提炼”,确保输入大模型的每一份数据都具备高价值。高质量数据集的核心目标,是教会大模型以最少的词元解决问题,从而训练出字字珠玑的AI,有效降低冗余词元消耗和算力浪费。

技术构建基础设施的“骨架”,制度赋予流通规则的“灵魂”

推进具体工作,当前互联网上的通识数据资源已接近枯竭,而决定行业垂类模型性能的专用数据,供给仍处于低位。数据“燃料”短缺,已成为AI行业面临的紧迫瓶颈。要提升垂类模型的专业能力,不能依赖低质量数据的简单堆砌,必须建立一套从底层工具到顶层人才的“精炼体系”。

当前,我国高质量数据集建设面临三个现实痛点:建设主体分散,数据管理部门难以全面掌握资源底数与建设进展;供给侧信息不对称,容易导致重复建设与质量参差不齐;需求侧获取成本高、周期长,制约技术创新效率。4月底在数字中国峰会上,受国家数据局委托,依托国家数研院建设和运营的国家数据集管理服务平台正式发布并启动试运行,标志着我国高质量数据集建设迈入集约化管理阶段。这也是国家层面首次推出数据集管理服务平台。平台采用“物理分散、逻辑集中”的汇聚模式,构建全国统一的数据集资源目录与管理体系,旨在推动高质量数据集“供得出、流得动、用得好”,实现全国“底数一本账、调度一盘棋、协作一张网”的工作格局。

至于大模型应用中频繁出现的数据泄露、模型幻觉、隐私合规等风险,根源不仅在于技术漏洞,更在于数据权责不清、流通规则缺失等制度性难题。数据一旦脱离持有方,权属如何界定、责任如何追溯、收益如何分配?这些问题若未妥善解决,再先进的技术也难以真正落地。

从技术路线来看,国家数据基础设施通过数联网、可信数据空间等核心载体,能够构建起“数据可用不可见、用途可控可计量”的可信流通环境。但这一目标的实现,离不开配套的制度设计。例如,隐私计算解决了“如何计算”的问题,但“谁可以算、计算范围是什么”需要数据分类分级制度来划定边界;区块链解决了“如何追溯”的问题,但“违规后如何问责、如何处罚”需要数据安全管理制度来明确红线;可信数据空间解决了“在何处流通”的问题,但“各方主体的权利义务如何配置”需要数据确权授权制度来提供依据。可以说,技术搭建了基础设施的“骨架”,制度赋予了流通规则的“灵魂”,二者缺一不可。从整体进度看,《国家数据基础设施建设指引》已明确:到2026年完成顶层设计和先行先试,到2028年建成规模化流通设施体系,到2029年基本建成国家数据基础设施主体结构。制度层面的立法修法、标准制定、规则细化也将同步推进。

智能终端:从“工具”进化为“伙伴”

2026年政府工作报告首次提出“打造智能经济新形态”,旨在促进新一代智能终端和智能体加快推广。这引发了三个层面的变革。一是产业形态的重构:从车载智能体到家庭服务机器人,智能终端正从“工具”进化为“伙伴”,带动硬件制造、软件服务、内容生态全产业链勃兴,形成万亿级市场增量。二是商业模式的变革:当智能体能主动理解并执行任务,“人找服务”将转向“服务找人”,Token作为结算单位使AI服务的价值可精确计量,催生全新的原生商业模式。三是生产关系的重塑:人机协作成为常态,智能体运营、模型训练等新兴岗位不断涌现。

智能经济的蓬勃发展,对数据基础设施提出了三个转变要求。一是从“集中处理”转向“云边端协同”:智能终端需要毫秒级响应,不能完全依赖云端,必须构建云边端一体化的数据流转体系。二是从“静态数据”转向“实时流式数据”:智能体持续与环境交互,产生海量高并发的动态数据,要求基础设施支撑低时延的数据流处理。三是从关注“数据所有权”转向“数据使用权”:智能体跨场景服务时,需在保护隐私前提下调用多方数据,可信数据空间、隐私计算等设施的作用将充分释放,成为智能经济的数据底座。

从“东数西算”到如今的“算电一体”,数据基础设施的概念在不断外延。对地方政府而言,下一步的发力点在哪里?大模型训练推理、智能体实时响应等场景对算力、网络、存力的需求远未满足,适度超前布局是必要的。但“超前”不等于“盲目”,必须坚持需求牵引、梯次布局。尤其要在“算电一体”或“算电协同”框架下,推动数据基础设施各要素协同规划,优先在绿电富集地区集约化布局,实现比特与瓦特的协同优化,避免“建而不用”。

基础设施的效能能否充分释放,不仅取决于硬件投入,更取决于制度规则、标准规范、产业生态、市场环境等软条件的成熟度。与其碎片化点状发力,不如系统性构建一套让数据“供得出、流得动、用得好”的软环境:以清晰的制度规则降低交易成本,以统一的标准规范保障数据质量,以丰富的应用场景牵引产业集聚,以开放的市场环境激发主体活力。总结来说,硬件是“骨架”,生态是“血脉”。地方应聚焦产业特色、场景牵引,因地制宜,让硬件与软件协同演进。

算电协同:深度融合、同频共振

算电协同从“各自为战”走向“系统协同”的核心挑战,本质上是比特世界与瓦特世界两套管理体系、两套运行逻辑、两套市场规则的碰撞。常说的“安全、绿色、经济”不可能三角,只是这些深层机制障碍的外在表现。

首先,算力设施迭代速度快,建设周期通常以月为单位,而电网发展规划以年为单位。算力需求爆发式增长与电力设施长建设周期形成明显错配:“电等算”容易导致过度配置和资源浪费,“算等电”则会制约产业发展。尤其值得注意的是,智算中心已从传统的兆瓦级负荷跃升至吉瓦级,成为区域电网的关键负荷,但在电力规划中过去往往缺乏前瞻性考虑。其次,算力中心对供电连续性和稳定性要求极高,大模型训练等任务需要7×24小时刚性连续供电,而新能源发电受天气影响波动性强,加上现有的储能技术和算电协同调度技术成熟度不足、成本高,要兼顾绿色、稳定和经济的难度很大。第三是“收益不明确”,算、电、碳市场之间的价值链条没有打通。当前电力市场主要围绕传统“发-输-配-用”单向关系设计,算力中心作为可调节负荷的价值没有充分体现;电碳市场之间的衔接也不够充分,绿电环境溢价与碳减排收益难以有效转化为企业的成本优势,市场没有对绿色算力的差异化价值给出合理回报,企业主动投资绿电的动力自然被削弱了。

总而言之,要从发展智能经济新形态的高度来看待算电协同。这不仅是两个系统的简单拼凑,而是要让不同节奏、不同特性的两个系统“深度融合、同频共振”。只有破解这些难题,算力和电力才能真正拧成一股绳。

近期,国家数据发展研究院发起算电协同科技与产业融合创新联合体,目的是打造产学研协同、深耕一线的创新实践载体,打通算力与电力融合堵点。联合体将重点从政策、技术、标准、产业四个层面系统性破解区域错配难题,打通“电算经络”,让西部的绿电不再“空转”,让东部的算力不再“等电”。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策