企业Agent建设必看:数据平台选型与对比指南
十年前,大多数企业在数字化转型中都栽在了数据孤岛这个通病上。
上了ERP管控财务、CRM跟进销售、MES调度车间、OA处理审批,每个系统独立运行都看似规范。但要跨系统拉取数据,立刻暴露问题——同一个订单编号,三个系统可能输出三种格式;生产排期需要参考销售预测时,最常用的办法依然是“导出Excel,再手工导入”。后来的数据中台建设,本质上就是在为当初“先上应用、不管打通”的决策买单。
如今,AI Agent的遭遇,几乎一模一样。
法务部部署了合同审核Agent,客服部上线了售后知识库问答系统,采购部构建了供应商情报助手,人事部也推出了制度问答Copilot……每个项目单独汇报时,都能展示各自的业务价值,但放在一起审视,老问题全面复活。
但这一轮的挑战比十年前更为棘手。数字化时代的孤岛,最多是“业务数据不通”,而Agent时代的挑战,直接升级到了三个层面。
比"打通"复杂得多的三层挑战
举例来说,一个合同审核Agent,不仅要解析合同文本(非结构化数据),还要查客户的历史回款记录(结构化数据),以及过往条款的审批意见(Agent自身产出的数据)。三种数据类型,来自三个不同的系统。这还只是单个Agent的情况。
当五个、十个Agent同时在线运行时,每个Agent都在与多种结构化与非结构化数据源交叉调用。这些调用关系并非单一直线,而是一张错综复杂的网络。结构化数据好歹在上一代数据平台中留有架构痕迹——表在哪、字段含义、权限归属,尚且有迹可循。但非结构化数据从未被统一管理:哪份合同在哪个目录、哪张图纸是最新版本、邮件附件散落在谁的收件箱里——这些信息一旦被Agent网状调用,随着调用链条的延伸,局面会迅速失控。这不是“复杂度提高了”,而是直接失序了。
不建数据底座,Agent会掉进哪些坑
过去两年,我们在几十个客户的Agent落地项目中,亲历或目睹的典型陷阱,归纳起来主要有六个。
底座与智能,同步建设
谈到数据平台与业务应用的关系,过去十年数据中台建设留下了两种典型的“走弯路姿势”,今天在Agent领域又开始重现。
第一种是IT思维主导的“先修路再通车”。 执念于必须先构建一个完美无缺的数据平台——主数据治理、数据质量清洗、指标体系搭建——然后才轮到业务上场。听起来严谨,但实际项目中,平台常建了两年还在“治理”阶段,业务部门早已等不及自行开干。结果是平台建成,业务已在各种零散工具上跑完一堆流程,回头再做迁移,成本比从零建起还要高。
第二种是业务思维主导的“先跑起来再说”。 完全不考虑数据底座,哪个部门需要就给哪个部门上Agent,数据接入各自为政。前三个场景确实速度快,但到第四、第五个时,问题全面爆发:数据口径不一致、权限管不住、Agent之间经验无法共享。越往后坑越多,建设速度越慢。
这两种思维背后,共享同一个错误假设:认为底座建设和业务建设是两件可以分开做的事,要么先做完一个再做另一个,要么干脆只做一个。
经验表明:底座和智能必须同步建设。 尤其对数据基础本身不够理想的企业,正确做法是——挑选一个高价值的Pilot Agent场景先跑起来,过程中同步把数据底座建好。Agent跑通,业务价值闭环,数据管道和权限策略也随之闭环。等到第二个场景接入时,底座上已有可复用的能力,速度自然倍增。不是先修好路再通车,也不是在荒地上硬闯——而是边修路边通车,让路和车一起生长出来。
2024年初,我们在客户现场就观察到了Agent“烟囱化”的苗头,并由此做出一个产品决策:推出MatrixOne Intelligence(MOI)——它不是另一个独立的Agent工具,而是一个以数据平台为基石的AI数据智能平台。它将Agent运行时所需的能力与底层的数据存储、集成、加工整合在一起,让团队从第一个场景起就能同步积累业务价值与数据资产。
注意这张图的层级关系:业务场景在最顶层,下面是整个MOI平台。MOI内部又分为三层:
Agent 运行时层
NL2SQL、RAG检索、记忆管理、运行分析——这些是所有Agent都需要的公共能力,构建一次即可反复调用。新场景接入时,无需重复搭建,直接调用即可。
数据集成与加工层
各业务系统的数据通过ETL/CDC接入,文档通过Embedding向量化,结构化指标通过语义层构建变得可被自然语言查询。Agent产出的运行日志也在这一层统一归集。数据只加工一次,所有Agent共享。
数据存储与管理层(MatrixOne)
最底层是MatrixOne云原生数据库,同时支持HTAP事务分析混合、向量检索、全文搜索。结构化数据与非结构化数据在同一个引擎中统一管理,Agent运行日志也存储于此。权限管控在这一层统一实现——行级、列级的数据权限与操作审计都在数据引擎层面定义,而非让上层的每个Agent各自为政。十个Agent共用一套安全策略,而非十套。
核心设计原则:Agent上层的场景可以多样化,但底下的数据底座必须是同一个。数据只接入一次、权限在数据层统一定义、记忆统一存储——无论将来增加多少个Agent,边际成本都是递减的。
对比:两条路的差距有多大
落地验证:不同行业的实战样本
这套架构不是PPT上的概念图。自2024年起,我们在多个行业的AI Agent项目中验证了“底座+智能”同步建设的路径。以下案例各有侧重,但共享一个核心结论:数据平台是Agent真正跑起来的前提,不是锦上添花。
最终验证结果:在已落地的项目中,第二个Agent场景的上线时间普遍比第一个缩短60%以上——因为数据管道、权限策略、记忆框架和日志归集都是复用的。底座建得越早,后续场景落地就越快。
五条踩过坑之后总结出来的经验
底座和Agent要同步起步,别走两个极端
不要花两年建一个“完美的数据底座”再开始做Agent——那是IT思维的旧路,业务根本等不起。也不要完全不管底座,让每个部门各搞一个Agent先跑起来——前几个确实快,但后面只会越来越慢。正确的节奏是:从第一个Pilot场景起就跑在可扩展的底座上,通过业务闭环带动数据闭环。
一个引擎管结构化和非结构化,不要拼凑
Agent天然就需要同时使用这两种数据。如果结构化用一个库、文档用另一个库、向量再加一个库——那么数据平台本身就会变成新的“烟囱”。选择一个原生支持HTAP、向量检索、全文搜索的引擎,能少走很多弯路。
Agent产出的数据从第一天就要归集
对话记录、推理链条、决策日志、用户打分——这些数据是Agent进化的关键燃料。不要等到上线半年后才开始想“好像应该分析一下效果”。从第一天起就让这些数据回流到统一平台,后续的效果评估和策略优化才能有据可依。
权限在数据层定义,不在Agent层各管各
Agent越多,权限治理的重要性就越凸显。在底座层面统一实现行级、列级的权限控制和操作审计,Agent拿到的就是已经脱敏或过滤后的合规数据。十个Agent共用一套安全策略,而非十套。这不是一个可选项,而是合规的底线。
先挑一个场景跑通,再横向复制
不要试图一次性构建一个“全能Agent平台”。先选一个数据质量高、业务价值清晰可见的场景(比如售后知识库问答、合同条款审核),端到端跑通之后,第二个场景就会快很多——管道能复用、权限能复用、记忆框架也能复用。
写在最后
Agent的价值毋庸置疑,但价值的最终兑现,考验的还是基本功。
十年前那轮数字化的教训其实很朴实:应用好建,底座难补。今天的Agent时代,问题更进了一层——Agent不仅消费数据,还在持续产生数据;所需的数据不只是结构化的表和指标,还有合同、图纸、文档这些非结构化内容。三个维度叠加在一起,没有底座的Agent,只会越建越乱。
好消息是,这一次我们可以从第一个场景开始就把底座建对。不需要等待,也不用再补课——底座和智能一起长出来,才是正解。







