钉钉免费AI客服上线，AI Agent发展预测

2026-06-09阅读 0热度 0

ai 人工智能

钉钉近期将AI客服功能免费开放，这一动作背后折射出一个更关键的行业信号——AI Agent的竞争已悄然启动。

整个议题可拆解为三个核心板块：个人助手与Agent的边界如何界定、行业场景中哪些模块能真正落地、以及这波技术浪潮未来如何演进。

先看一个基本问题：为什么近期所有人都在讨论Agent？答案聚焦在下面这张架构图上。

从七层技术架构来看，个人助手与Agent的界限其实相当模糊，而AI Agent生成平台的核心价值，就在于规模化生产个人助手。换言之，Agent是AI应用最终要抵达的目标形态。

但切换到行业应用视角，定义则截然不同——那属于严肃Agent，必须对输出结果负责，必须建立完备的监控指标体系来兜底。

AI Agent大势已定，基座模型领域的竞争结束后，下一轮行业Agent平台的争夺必然会再次引爆。

从逻辑推演，任何能被AI重构的应用，迟早都会被AI重写，波及范围远超想象：

Agent 场景	说明
产品对话助手	- 产品使用指导内容 - 系统功能操作指引 - 使用文档 - 工具脚本
对话助手	- 电话客服话术 - 在线咨询脚本 - 外呼客服脚本 - 客服场景 - 用户运营
内容审核	- 合同审核 - 经营资质审核 - 商品信息审核 - 评论审核 - 其他内容审核
报告生成	- 企业深度报告撰写 - 竞品对比报告生成 - 客户报告生成 - 会议纪要
知识管理	- 文档编辑 - 知识库分类 - 知识库迭代 - FAQ
企业系统统一导航	- 会议纪要 - 客户管理 - 项目管理 - 合同管理
数据分析	- 通用数据分析报表（大类） - 经营报表（大类） - 其他
代码	- 代码生成 - 代码审查 - 代码调试

当前正处于AI行业红利窗口期，只要及时转向，就能分到一杯羹：

节后市场反馈已相当明确——AI相关咨询量暴涨，是年前的5倍多。因此，Agent的下一步走向，值得持续关注。

AI Agent的发展预测

未来AI Agent的演进路径，大概率围绕这张图展开。以Coze、Manus、Dify为代表的通用Agent平台，很快就会沦为基础设施，甚至被迭代淘汰：

核心逻辑在于：通用类Agent生成平台，根本无暇顾及模型的专业性问题。而医疗、教育、法律、金融等高壁垒领域，虽然做不出顶级基座模型，但一定有能力打造最懂行的Agent平台。

这件事值得投入。别说Manus这类通用平台搞不定，坦白说，OpenAI和DeepSeek暂时也不行——总有些行业数据，它们是无法触及的。

从当前格局看，AI Agent平台将沿着三个方向深度演进：

一、垂直领域壁垒加速形成

医疗、法律、金融等行业，正在通过数据护城河+领域知识工程构建专属Agent。

以医疗为例，去年看到的一个案例：融合300万份电子病历、药品知识库和诊疗指南后，辅助诊断准确率直接达到91.2%，而通用模型只有67%。

虽然这个数据的真实性需要核实（毕竟不是自家应用，现在对这类数据都得留个心眼），但方向是明确的——这种专业壁垒，正在让行业Agent成为刚需工具。

二、开发范式向轻量化转型

Coze这类平台已经证明，通过模块化组件（知识库/工作流/API）快速搭建Agent的模式是可行的。

一家跨境电商企业，用Dify+本地商品知识库快速生成各类SOP，再对接ERP系统形成客服Agent，响应速度直接提升了40%以上。

这种积木式开发，正在逐步降低行业应用的门槛。

三、价值评估体系逐步完善

后续Agent的效果，必然会有各种量化指标来衡量，甚至形成行业标准或共识。

比如风控Agent，就得同时满足响应时效（<2秒）、误报率（<0.3%）、规则可解释性（100%可追溯）三项硬指标。

监管部门也在活跃，预计近期会对LLM的内容产出提出新要求。

但有一点值得注意：通用平台与行业平台，并不是替代关系。

就像之前一样，做基座大模型的比如阿里云，同时提供通用版和医院定制版——后者在保持基础能力的同时，开放了检验指标解读、医嘱生成等垂直模块接口。

这种分层演进，很可能成为主流路径。只不过，既做平台又做应用，多少会占些先机。

Agent的现状

接下来聊聊现状。坦诚讲，情况不算乐观，还得交学费。

市面上各类AI Agent框架层出不穷，但真正能落地业务、产生实际价值的，寥寥无几。

整体来看，现阶段的Agent生态还处于探索与试验阶段。有些平台确实具备前瞻性和高度定制能力，但也有很多只配用来做Demo演示的工具。

以Coze、Dify和Manus为代表的几款平台，正逐步展现出各自特色，但差距也一目了然。

先说Coze。字节跳动出品的Agent平台，插件生态和多模态数据处理能力都不错，扩展性强。虽然跨领域协作还有局限，但在快速响应需求、构建初步Demo方面，优势明显，用户体验也确实好。

只不过，门槛和最后一公里，才是它真正需要面对的难题。

相比之下，Dify走的是低代码/无代码路线，主要面向技术团队做定制化开发。某种程度上，可以认为Dify是Coze的一个变种。既然类似，那么Coze有的问题，Dify一个都跑不掉，而且体验可能还不如Coze。

至于Manus，它代表了一类“通用型AGI平台”，兼顾任务规划和实际执行能力。优势在于能同时处理决策制定和具体执行，减少了人工干预，效率提升明显。

但高度通用性也意味着资源消耗大、实现难度高。在简单任务场景下，多少有些大材小用。当然，正因为具备跨领域任务处理的潜力，Manus更适合那些需要深度定制和多维协同的复杂场景，比如高级机器人控制、智能家居系统整合。

不过，如前所述，我不看好Manus在行业AI Agent上的发展前景。

总体而言，当前AI Agent框架正处于技术突破与市场需求激烈碰撞的阶段。大家都在试图打破单一功能模式，往更高层次的业务集成走。

未来，随着垂直领域应用加深、多模态协同技术提升，这些平台在性能、稳定性和易用性上肯定还会进步。企业选工具时，既要看技术特性，也得考虑实际业务场景的适配性，别只停留在Demo阶段。

DeepResearch，大模型的野心

可以看出，上面提到的那些Agent，全部建立在各种SOP之下。而SOP，本质上就是更结构化的优质数据。

大模型当然不会放弃，它们可能认为这条技术路径是错的，于是提出了更多构想。

比如OpenAI发布的DeepResearch。一边要应对DeepSeek-CoT带来的冲击，另一边还想在模型上完成更多事情。或者说，它们认为AGI根本不需要SOP。

这里有一个真实评测。任务是：想要整理所有的医疗信息。这显然是个大工程，为了降低难度，把问题从“信息”改成了“信息渠道的发布者”——

梳理所有的医疗信息发布渠道，并按权威性排序。基于这个问题，开始了Deep Research之旅。先给了一些输入：

我要完成《医疗信息产出渠道全景分级体系》。目的是将所有可能产出医疗信息的机构全部包含，并进行分级，需要遵循MECE原则。

注：真实提示词会严谨很多，但有一定密度就不放出来了。

在多次提示、反复沟通后，GPT给出了以下反馈：

不用细看了，问题很大。连最基础的医疗教科书都没有……

明知道有问题，开始反复暗示：是否有遗漏？可惜系统始终没能给一个满意的答复。

最后不得不明示，它才把医学教材加进去：

继续质疑是否还有遗漏。连续等了两轮，每轮将近10分钟，GPT依旧嘴硬得不行。

没办法，只能继续提示：药厂很多信息没有暴露吧？很多大型药企经常发布新药，里面涉及大量药品信息，比如新冠药物的说明……

这回GPT才“恍然大悟”，开始继续梳理。而没多久，深度研究的次数就用完了：

问题依然没解决，最后只能转头去跟“不听话的DeepSeek-R1”继续纠缠……

综上，每个问题耗时5到15分钟后，结论很清晰：GPT的Deep Research对于过于复杂的问题，根本没法独立完成任务。

而且，Deep Research的黑盒问题不少。实际体验下来，并不比DeepSeek-R1高明太多，只不过看上去阵仗特别大……

换句话说，简单任务犯不着用Deep Research，复杂任务又指望不上。那张成绩单，只能让人觉得测试题目是精心挑选过的……

从近期对AI搜索工具的调研来看，AI在实时搜索和信息引用方面存在严重问题，这些问题同样暴露了Deep Research在处理复杂信息时的不可靠性。

数据显示，对20家出版商共1600次提问中，超过60%的回复存在错误，部分工具的错误率甚至高达94%。

这种现象，不仅体现在引用新闻文章时，也反映在对原始信息的检索和链接准确性上。

AI搜索工具常常自信满满地输出错误答案，很少用“似乎”“可能”这类词来表达不确定性，甚至面对明显屏蔽的内容也会错误回应。

更离谱的是，付费版的工具错误率反而更高。这不仅损害用户体验，更让信息的真实性和权威性受到严重质疑。

Agent or SOPs

OpenAI强调，Deep Research是一个模型，而不是在o3基础上叠加一堆工作量。

用户提问时，Deep Research会像经验丰富的研究员那样，先主动搜索并提取初步结果，深入分析信息质量和相关性。如果结果不足，就调整搜索关键词，重新探索。

相比之下，传统AI搜索是把问题拆成关键词，依赖外部API返回结果，再由模型总结提炼。这种方式效率低，很难过滤掉低质量信息。

在行业调研中，Deep Research确实能提供可靠数据源，也能推算出新趋势。虽然偶尔会出现幻觉，但总体还算少。

说实在的，就过往经历来看，反而更期待它能叠加大量的SOP。比如最近有点小火的Manus（Agent平台），从测评来看，它又“超过了OpenAI”：

实际使用下来，可以得出一个结论：在Manus擅长的领域，它的体验确实优于Deep Research。至于它是否擅长，又取决于意图识别，以及意图识别后SOP的成熟度。

举个例子，如果基于o3写一套SOP，去实现“筛选某行业全量信息渠道”的任务，结果一定比Deep Research好。这就是KnowHow的威力。

结语

当大模型在专业领域频频“露怯”时，医疗诊断准确率从67%到91%的跃迁已经证明了：真正构建行业壁垒的，不是参数规模，而是结构化知识工程的能力。

那些沉淀了十年诊疗路径的医院、积累了百万判例的律所、梳理了千条风控规则的金融机构，正在把业务SOP转化为AI时代的数据护城河。

当前Agent生态的混战，本质上是两种技术路径的博弈：

模型驱动派，试图用更强大的基座模型吞噬一切（比如Deep Research）；
SOP驱动派，则通过解构业务流程，建立专属的数字神经系统。

而现实世界的复杂任务，往往需要二者在规则约束下的创造力中达成平衡。

正如测试案例所示：当AI连医疗教科书都遗漏时，再精妙的搜索算法，也难掩知识体系的残缺。

这场Agent革命最深刻的启示也许是：能被AI重构的，从来不是行业本身，而是行业知识的组织方式。

那些率先把业务经验转化为可编程工作流、把专家智慧沉淀为可迭代数字资产的组织，终将在AI转型中，掌握真正的主动权。