钉钉免费AI客服上线,AI Agent发展预测
钉钉近期将AI客服功能免费开放,这一动作背后折射出一个更关键的行业信号——AI Agent的竞争已悄然启动。
整个议题可拆解为三个核心板块:个人助手与Agent的边界如何界定、行业场景中哪些模块能真正落地、以及这波技术浪潮未来如何演进。
先看一个基本问题:为什么近期所有人都在讨论Agent?答案聚焦在下面这张架构图上。

从七层技术架构来看,个人助手与Agent的界限其实相当模糊,而AI Agent生成平台的核心价值,就在于规模化生产个人助手。换言之,Agent是AI应用最终要抵达的目标形态。
但切换到行业应用视角,定义则截然不同——那属于严肃Agent,必须对输出结果负责,必须建立完备的监控指标体系来兜底。
AI Agent大势已定,基座模型领域的竞争结束后,下一轮行业Agent平台的争夺必然会再次引爆。
从逻辑推演,任何能被AI重构的应用,迟早都会被AI重写,波及范围远超想象:
| Agent 场景 | 说明 |
|---|---|
| 产品对话助手 | - 产品使用指导内容 - 系统功能操作指引 - 使用文档 - 工具脚本 |
| 对话助手 | - 电话客服话术 - 在线咨询脚本 - 外呼客服脚本 - 客服场景 - 用户运营 |
| 内容审核 | - 合同审核 - 经营资质审核 - 商品信息审核 - 评论审核 - 其他内容审核 |
| 报告生成 | - 企业深度报告撰写 - 竞品对比报告生成 - 客户报告生成 - 会议纪要 |
| 知识管理 | - 文档编辑 - 知识库分类 - 知识库迭代 - FAQ |
| 企业系统统一导航 | - 会议纪要 - 客户管理 - 项目管理 - 合同管理 |
| 数据分析 | - 通用数据分析报表(大类) - 经营报表(大类) - 其他 |
| 代码 | - 代码生成 - 代码审查 - 代码调试 |
当前正处于AI行业红利窗口期,只要及时转向,就能分到一杯羹:

节后市场反馈已相当明确——AI相关咨询量暴涨,是年前的5倍多。因此,Agent的下一步走向,值得持续关注。
AI Agent的发展预测
未来AI Agent的演进路径,大概率围绕这张图展开。以Coze、Manus、Dify为代表的通用Agent平台,很快就会沦为基础设施,甚至被迭代淘汰:

核心逻辑在于:通用类Agent生成平台,根本无暇顾及模型的专业性问题。而医疗、教育、法律、金融等高壁垒领域,虽然做不出顶级基座模型,但一定有能力打造最懂行的Agent平台。
这件事值得投入。别说Manus这类通用平台搞不定,坦白说,OpenAI和DeepSeek暂时也不行——总有些行业数据,它们是无法触及的。
从当前格局看,AI Agent平台将沿着三个方向深度演进:
一、垂直领域壁垒加速形成
医疗、法律、金融等行业,正在通过数据护城河+领域知识工程构建专属Agent。
以医疗为例,去年看到的一个案例:融合300万份电子病历、药品知识库和诊疗指南后,辅助诊断准确率直接达到91.2%,而通用模型只有67%。
虽然这个数据的真实性需要核实(毕竟不是自家应用,现在对这类数据都得留个心眼),但方向是明确的——这种专业壁垒,正在让行业Agent成为刚需工具。
二、开发范式向轻量化转型
Coze这类平台已经证明,通过模块化组件(知识库/工作流/API)快速搭建Agent的模式是可行的。
一家跨境电商企业,用Dify+本地商品知识库快速生成各类SOP,再对接ERP系统形成客服Agent,响应速度直接提升了40%以上。
这种积木式开发,正在逐步降低行业应用的门槛。
三、价值评估体系逐步完善
后续Agent的效果,必然会有各种量化指标来衡量,甚至形成行业标准或共识。
比如风控Agent,就得同时满足响应时效(<2秒)、误报率(<0.3%)、规则可解释性(100%可追溯)三项硬指标。
监管部门也在活跃,预计近期会对LLM的内容产出提出新要求。
但有一点值得注意:通用平台与行业平台,并不是替代关系。
就像之前一样,做基座大模型的比如阿里云,同时提供通用版和医院定制版——后者在保持基础能力的同时,开放了检验指标解读、医嘱生成等垂直模块接口。
这种分层演进,很可能成为主流路径。只不过,既做平台又做应用,多少会占些先机。
Agent的现状
接下来聊聊现状。坦诚讲,情况不算乐观,还得交学费。
市面上各类AI Agent框架层出不穷,但真正能落地业务、产生实际价值的,寥寥无几。
整体来看,现阶段的Agent生态还处于探索与试验阶段。有些平台确实具备前瞻性和高度定制能力,但也有很多只配用来做Demo演示的工具。
以Coze、Dify和Manus为代表的几款平台,正逐步展现出各自特色,但差距也一目了然。
先说Coze。字节跳动出品的Agent平台,插件生态和多模态数据处理能力都不错,扩展性强。虽然跨领域协作还有局限,但在快速响应需求、构建初步Demo方面,优势明显,用户体验也确实好。
只不过,门槛和最后一公里,才是它真正需要面对的难题。
相比之下,Dify走的是低代码/无代码路线,主要面向技术团队做定制化开发。某种程度上,可以认为Dify是Coze的一个变种。既然类似,那么Coze有的问题,Dify一个都跑不掉,而且体验可能还不如Coze。
至于Manus,它代表了一类“通用型AGI平台”,兼顾任务规划和实际执行能力。优势在于能同时处理决策制定和具体执行,减少了人工干预,效率提升明显。
但高度通用性也意味着资源消耗大、实现难度高。在简单任务场景下,多少有些大材小用。当然,正因为具备跨领域任务处理的潜力,Manus更适合那些需要深度定制和多维协同的复杂场景,比如高级机器人控制、智能家居系统整合。
不过,如前所述,我不看好Manus在行业AI Agent上的发展前景。
总体而言,当前AI Agent框架正处于技术突破与市场需求激烈碰撞的阶段。大家都在试图打破单一功能模式,往更高层次的业务集成走。
未来,随着垂直领域应用加深、多模态协同技术提升,这些平台在性能、稳定性和易用性上肯定还会进步。企业选工具时,既要看技术特性,也得考虑实际业务场景的适配性,别只停留在Demo阶段。
DeepResearch,大模型的野心
可以看出,上面提到的那些Agent,全部建立在各种SOP之下。而SOP,本质上就是更结构化的优质数据。
大模型当然不会放弃,它们可能认为这条技术路径是错的,于是提出了更多构想。
比如OpenAI发布的DeepResearch。一边要应对DeepSeek-CoT带来的冲击,另一边还想在模型上完成更多事情。或者说,它们认为AGI根本不需要SOP。
这里有一个真实评测。任务是:想要整理所有的医疗信息。这显然是个大工程,为了降低难度,把问题从“信息”改成了“信息渠道的发布者”——
梳理所有的医疗信息发布渠道,并按权威性排序。基于这个问题,开始了Deep Research之旅。先给了一些输入:
我要完成《医疗信息产出渠道全景分级体系》。目的是将所有可能产出医疗信息的机构全部包含,并进行分级,需要遵循MECE原则。
注:真实提示词会严谨很多,但有一定密度就不放出来了。
在多次提示、反复沟通后,GPT给出了以下反馈:


不用细看了,问题很大。连最基础的医疗教科书都没有……
明知道有问题,开始反复暗示:是否有遗漏?可惜系统始终没能给一个满意的答复。
最后不得不明示,它才把医学教材加进去:

继续质疑是否还有遗漏。连续等了两轮,每轮将近10分钟,GPT依旧嘴硬得不行。
没办法,只能继续提示:药厂很多信息没有暴露吧?很多大型药企经常发布新药,里面涉及大量药品信息,比如新冠药物的说明……
这回GPT才“恍然大悟”,开始继续梳理。而没多久,深度研究的次数就用完了:

问题依然没解决,最后只能转头去跟“不听话的DeepSeek-R1”继续纠缠……
综上,每个问题耗时5到15分钟后,结论很清晰:GPT的Deep Research对于过于复杂的问题,根本没法独立完成任务。
而且,Deep Research的黑盒问题不少。实际体验下来,并不比DeepSeek-R1高明太多,只不过看上去阵仗特别大……

换句话说,简单任务犯不着用Deep Research,复杂任务又指望不上。那张成绩单,只能让人觉得测试题目是精心挑选过的……
从近期对AI搜索工具的调研来看,AI在实时搜索和信息引用方面存在严重问题,这些问题同样暴露了Deep Research在处理复杂信息时的不可靠性。
数据显示,对20家出版商共1600次提问中,超过60%的回复存在错误,部分工具的错误率甚至高达94%。
这种现象,不仅体现在引用新闻文章时,也反映在对原始信息的检索和链接准确性上。
AI搜索工具常常自信满满地输出错误答案,很少用“似乎”“可能”这类词来表达不确定性,甚至面对明显屏蔽的内容也会错误回应。
更离谱的是,付费版的工具错误率反而更高。这不仅损害用户体验,更让信息的真实性和权威性受到严重质疑。
Agent or SOPs
OpenAI强调,Deep Research是一个模型,而不是在o3基础上叠加一堆工作量。
用户提问时,Deep Research会像经验丰富的研究员那样,先主动搜索并提取初步结果,深入分析信息质量和相关性。如果结果不足,就调整搜索关键词,重新探索。
相比之下,传统AI搜索是把问题拆成关键词,依赖外部API返回结果,再由模型总结提炼。这种方式效率低,很难过滤掉低质量信息。
在行业调研中,Deep Research确实能提供可靠数据源,也能推算出新趋势。虽然偶尔会出现幻觉,但总体还算少。
说实在的,就过往经历来看,反而更期待它能叠加大量的SOP。比如最近有点小火的Manus(Agent平台),从测评来看,它又“超过了OpenAI”:

实际使用下来,可以得出一个结论:在Manus擅长的领域,它的体验确实优于Deep Research。至于它是否擅长,又取决于意图识别,以及意图识别后SOP的成熟度。
举个例子,如果基于o3写一套SOP,去实现“筛选某行业全量信息渠道”的任务,结果一定比Deep Research好。这就是KnowHow的威力。
结语
当大模型在专业领域频频“露怯”时,医疗诊断准确率从67%到91%的跃迁已经证明了:真正构建行业壁垒的,不是参数规模,而是结构化知识工程的能力。
那些沉淀了十年诊疗路径的医院、积累了百万判例的律所、梳理了千条风控规则的金融机构,正在把业务SOP转化为AI时代的数据护城河。
当前Agent生态的混战,本质上是两种技术路径的博弈:
模型驱动派,试图用更强大的基座模型吞噬一切(比如Deep Research);
SOP驱动派,则通过解构业务流程,建立专属的数字神经系统。
而现实世界的复杂任务,往往需要二者在规则约束下的创造力中达成平衡。
正如测试案例所示:当AI连医疗教科书都遗漏时,再精妙的搜索算法,也难掩知识体系的残缺。
这场Agent革命最深刻的启示也许是:能被AI重构的,从来不是行业本身,而是行业知识的组织方式。
那些率先把业务经验转化为可编程工作流、把专家智慧沉淀为可迭代数字资产的组织,终将在AI转型中,掌握真正的主动权。