大数据基建升级AI Infra:转型策略与趋势
承接上篇的逻辑线,本篇进入更务实的讨论。
上篇梳理了从大数据基建向AI Infra演进的底层逻辑,本篇则聚焦执行层面——明确具体行动项、切入路径,以及应优先启动的准备工作。
下面直接分解核心要点。
一、数据负责人现在应该提前准备什么
一个值得关注的普遍现象是:
许多团队接触“本体化语义层”时,第一反应是陷入产品选型:采购哪个平台?是否需要引入知识图谱或图数据库?能否让大模型自动化建模?是否应一次性梳理全部业务对象?
这些疑问暂时不是最优先级。
当前对多数数据团队而言,最迫切的是夯实基础。基础扎实,后续无论是自研、采购还是混合架构都能稳健推进;反之,再强大的Agent也会被混乱的指标口径、模糊的实体关系、错位的权限策略和低质量数据所拖累。
1. 从表清单升级到业务对象清单
目前大多数企业已建立表清单、字段清单和数据目录,但普遍缺乏关键一环——业务对象清单。
业务对象清单的核心价值,在于从“系统中有什么表”转向“企业经营中存在哪些需AI理解的实体对象”。
建议从单一业务线入手,避免一次性全铺开。例如,零售企业可优先聚焦客户、订单、商品、门店、库存和活动;制造企业可从订单、物料、设备、工单、产线和质量事件切入;ToB企业则可围绕客户、商机、合同、项目、回款及服务工单构建。
每个对象至少需整理以下信息:
对象名称及业务定义、主键与跨系统身份映射、来源系统及主事实表、关键属性、生命周期状态、关联的核心指标、以及高频率经营问题。
业务对象清单是本体化语义层的起点,缺少它,后续的指标、关系、事件和动作将缺乏锚点。
2. 把指标从公式升级成“对象上的经营含义”
许多企业拥有指标平台,但指标定义往往仅停留在计算公式层面。销售额、毛利、活跃用户、退款率的计算公式必须精准,但仅有公式远远不够。
当AI介入经营分析时,它需要理解指标所归属的对象、适用的业务场景、以及能解答的问题类型。比如“销售额”可能归属于订单、门店、商品、区域、客户群或渠道等不同对象;“活跃”的定义在运营、产品、销售和客服视角下差异显著;“毛利”在财务、经营和商品口径下可能完全不同。
因此,指标梳理工作需额外补充以下维度:
指标归属对象、适用业务场景、粒度及时间窗口、依赖的事件或状态、互斥口径与近似口径、是否支持跨部门复用、异常时的归因方向。
这项工作看似是指标治理的进阶,但它为Agent分析提供了必要约束,避免模型仅知道如何计算指标,而不知其在经营中的实际用途。
3. 梳理对象关系,别让join路径全靠模型猜
数据团队最易忽视的环节之一是关系建模。
传统SQL开发中,许多JOIN路径依赖团队经验。资深人员清楚客户表与订单表的关联方式,订单表与商品表、商品表与库存表、门店表与区域表的连接路径。然而,若这些经验未系统化为资产,对Agent而言便等于不存在。
数据部门应显式整理高频的对象关系,至少包括:
对象A与对象B的业务关系类型(一对一、一对多、多对多或时间相关性)、依赖的字段或中间表、适合分析路径与明细追踪路径的区分、可能引发口径膨胀或重复计算的JOIN、以及需要权限或租户隔离的关系。
举例来说,客户到订单、订单到商品似乎是自然关系。但如果客户ID在多个系统中不统一,订单中同时存在下单人和支付人,商品具有SKU、SPU、类目多层结构,区域归属按收货地址、门店地址和销售组织分别计算——此时JOIN路径便不再简单。
Agent面临的主要障碍有两类:数据缺失,以及关系路径存在但含义模糊。后者的隐蔽性更强,及早梳理这些关系,能显著提升后续AI数据应用的稳定性。
4. 建一套经营问题集,别只建SQL样例库
许多团队会汇总历史SQL作为AI生成SQL的参考,这虽有其价值,但远远不够。
SQL样例仅记录技术实现过程,未能体现当时的业务背景、口径选择、边界条件和解释逻辑。而经营问题集则更具战略价值。
例如:本月销售额为何低于目标?哪些门店毛利异常?哪些客户复购率下滑值得关注?哪些商品库存周转放缓?哪些项目回款风险上升?哪些区域活动投入产出不匹配?
每个问题最好补充以下内容:
业务场景、涉及的对象与指标、可能的归因路径、需避免的误解、应返回的证据、以及适用角色与权限边界。
这套经营问题集未来可转化为语义层的测试集、Agent的回归集、业务方的验收集。如果企业仅积累SQL样例,AI终将沦为SQL外包工具;唯有沉淀经营问题集,AI才有望嵌入经营分析的工作流。
5. 把权限从数据权限升级成语义权限
传统数据权限主要针对库、表、字段和行级规则,这些仍需保留。但在Agent应用中,权限问题更为复杂。
用户能否查看某一字段仅是第一层,更深层的问题包括:能否查看某类经营对象?能否观察对象间关系?能否访问聚合后的敏感指标?能否获取AI的归因解释?是否允许Agent提供行动建议?能否触发后续任务或回写流程?
例如:区域经理可以查看本区域销售额,但不应访问全国门店明细;门店店长可以了解本店客户复购情况,但无法获取客户跨店行为;财务角色可查看毛利和费用,运营角色则只能访问脱敏后的经营指标。
若权限仅限表与字段层级,Agent在解释、归因和总结时易跨越业务边界。因此,数据部门需提前构建语义权限视角:明确哪些对象、关系、指标、解释及建议对哪些角色可见。
AI数据应用的权限治理,不能只管控“查到了什么”,还需管理“理解了什么、解释了什么、建议了什么”。
6. 给语义资产建立版本、审核和回滚意识
企业在指标治理中的痛点常常出现在定义之后:指标变更时,如何保持组织一致?本体化语义层同样面临此问题。
业务对象、关系、指标口径、权限策略和经营问题均会演变,若缺乏版本管理,Agent的回答将失去可追溯性。
因此,团队需建立以下意识:语义模型需版本化,发布前需审核,高频问题需回归测试,错误回答需追溯至语义路径,口径变更需明确影响范围,发布后需支持回滚。
这看似是研发流程的要求,但数据语义资产进入AI场景后,本身就需具备工程化治理能力。过去指标口径错误仅影响一张报表,而在Agent场景中,语义定义错误可能波及问答、归因、报告、建议、任务触发及管理动作。一旦语义资产成为Agent的工作底座,它就必须从“文档资产”升级为“可发布、可回归、可审计的工程资产”。
7. 让业务专家进入建模流程,不要幻想完全自动建模
大模型能高效完成多项建模辅助工作:读取PRD、整理访谈纪要、归类业务问题、生成对象候选、总结指标口径、发现字段命名差异、整理散落规则为草案。
但业务语义的决策权不能完全交给模型。原因在于,模型虽能从文本和数据中推断模式,却无法为企业承担业务责任。哪个指标采用哪个口径、哪些关系在经营上成立、哪些字段属于敏感信息、哪些动作需审批、哪些结论可公开——这些均需业务专家与数据负责人共同确认。
因此,本体化语义层的建设需要人机协同:模型加速候选生成、文档整理、差异发现与问题聚类;人类负责边界定义、口径审核、发布签署与争议处理。AI能降低语义建模的体力成本,但不能豁免语义责任。
这也是数据部门负责人需提前设计组织机制的关键所在。缺乏语义资产Owner、审核流程、变更记录和争议处理机制,后续AI数据系统将难以切入核心经营场景。
二、先别急着做全能经营助理,先把结构化数据的语义地基铺稳
许多企业投入AI时,总是直奔全能经营助理:查数、分析、报告、PPT、群聊、任务、审批、系统回写。愿景固然美好,但落地节奏必须清晰。
对数据部门而言,若结构化数据的语义地基未夯实,直接构建全能Agent会混淆问题根源:回答错误源于模型理解偏差还是指标口径失误?查询失败源自权限问题还是关系路径缺失?解释不清归咎于业务对象建模不全还是RAG召回不足?建议不靠谱源自归因逻辑不完整还是行动边界模糊?
缺乏语义层作为控制平面,这些问题难以被有效拆解。
更稳妥的顺序是,优先选择结构化数据相对清晰、经营问题高频、业务负责人愿意配合的场景。例如销售经营分析、门店经营分析、客户增长分析、库存周转分析、项目回款分析、财务费用分析。
围绕该场景,需优先准备五类资产:业务对象、指标归属、对象关系、经营问题集、语义权限。这些基础具备后,再让Agent进行问答、归因、解释、报告及任务建议。
此举能将AI的能力约束在清晰的语义空间内,避免其被全企业的表、字段、口径和权限所淹没。更关键的是,团队能沉淀出一套可复用的方法论:第一个场景完成后,第二个场景即可复用对象建模、指标治理、关系梳理、问题集、权限策略和回归测试的方法。
本体化语义层的建设不宜追求速成,更适合从高价值场景切入,逐步将业务对象和经营问题资产化。数据负责人的当前目标,是构建可持续扩展的语义建模方法,系统对接并非最优先事项。
三、Data Infra 团队的角色会被重新定义
AI对数据部门的影响将超越工具层面,重塑Data Infra团队在企业中的定位。
过去,数据平台团队常被视为支撑部门,响应业务需求,进行建表、跑任务、制报表,确保稳定、性能与质量。随后,数据团队开始建设指标平台、实施数据治理、提供数据服务,逐步从交付团队演变为平台团队。
推动AI经营管理后,数据团队将承担新职责:为Agent定义企业的业务世界。这一职责比SQL开发更前置,比报表制作更贴近经营,要求团队理解业务对象、经营问题、指标口径、系统关系与权限边界,同时具备工程化治理能力。
未来优秀的数据负责人,需同时管理三类资产。
第一类:数据资产(表、字段、任务、分层模型、数据质量、血缘、成本、性能)。
第二类:语义资产(对象、关系、事件、状态、指标、规则、权限、问题集、解释路径)。
第三类:Agent可用资产(工具、Skill、语义计划、问题回归、回答证据、运行Trace、异常复盘)。
若这三类资产分散在不同团队、文档和系统中,AI数据应用难以稳定。若能统一组织,数据团队将从“数据供给者”升级为“AI经营基座建设者”。
下一阶段Data Infra的价值不仅在于计算能力,更在于将企业经营世界构建为Agent可理解、可验证、可治理的结构。这正是本体化语义层成为结构化数据领域值得提前布局的技术路线的原因。其目的并非追逐概念,而是回应一个现实问题:当AI进入企业日常经营管理时,现有数据基建还欠缺哪块表达能力。
写在最后:别急着替换数仓,先把数仓资产升级成语义资产
浓缩本文的核心判断:
AI时代的数据基建升级应遵循一条稳健主线:保留离线数仓、实时数仓和湖仓一体的事实供给能力,同时为沉淀的结构化数据资产赋予Agent可用的业务语义控制面。
离线数仓、实时数仓、湖仓一体和OLAP仍具价值,这些基础架构不会因AI而失效。
若数据部门仅停留在表、字段、任务、指标和报表层面,AI数据应用将长期局限于问答和演示阶段。
下一阶段应优先准备:业务对象清单、指标与对象的归属关系、对象间的关系路径、事件与状态模型、高频经营问题集、语义权限边界、语义版本发布回归及审计机制。
这些准备工作短期或许不如打造一个炫酷Agent引人注目,但其价值决定了企业AI数据应用能走多远。企业经营管理涉及的AI最终要面对一个包含对象、关系、状态、规则、权限和责任的业务世界,远比孤立表格复杂。
数据负责人若能在AI部署前构建起这一业务世界,AI对数据部门的冲击就不会沦为岗位压力,反而会成为Data Infra团队重新定义自身价值的契机。


