百度安全荣膺AIIA副组长 树立全链路智能体安全新典范

2026-06-12阅读 0热度 0
智能体

日前,中国人工智能产业发展联盟(AIIA)安全治理委员会的年度会议上,与会专家反复探讨的核心议题是“构建安全共识,共筑可信未来”。产学研各界百余位代表聚焦AI风险管理、平台治理与智能体安全等硬核议题展开深度交流。百度安全凭借在人工智能安全领域积累的深厚技术底蕴与持续落地的治理实践,再次当选AIIA安全治理委员会“副组长单位”。这一身份直接印证了百度安全过去两年在推动行业标准制定、构建安全生态方面取得的实质贡献。


AIIA安全治理委员会副组长单位成员合影


AIIA安全治理委员会副组长单位资质证书

作为大会焦点环节,百度大模型内容安全平台负责人李志伟发表了题为《从“可回答”到“可执行”:大模型与智能体安全建设实践》的主题演讲。他的核心判断清晰精准:当AI能力从单一文本生成扩展到复杂工具调用与环境交互时,安全防御的重心正经历质的跃迁。大模型时代,核心能力是“可回答”——风险主要集中在内容合规、幻觉和价值观偏差上,安全目标明确:确保模型“不说错话”。进入智能体时代,核心能力升级为“可执行”——Agent自主调用API、操作业务系统,甚至进行多步规划。风险随之全面升级:越权调用、恶意插件攻击、供应链风险……安全目标必须同步提升,确保智能体“不做错事”。

李志伟打了个比方:智能体就像一个能够调用Tools、操作API、访问真实业务系统,甚至拥有长期记忆和规划能力的“数字员工”。它可以用日历安排会议、调用计算器处理数据、运行代码解释器,甚至直接操作企业数据库。这种能力的质变,把风险边界从虚拟的“文本框”猛然推到了真实的“业务流”中。他强调,一个具备执行能力的Agent,一旦被恶意操控或产生逻辑错误,造成的后果绝不再是一句冒犯性的言论那么简单——它可能是误删关键数据、越权转账、执行恶意代码,甚至导致整个系统瘫痪。


百度大模型内容安全平台负责人李志伟演讲现场

面对这些挑战,李志伟详细拆解了百度大模型安全护栏的架构——一套覆盖模型层、工具层、运行期及审计层的统一防护体系。这不是简单的单点防御,而是融合DevSecOps理念的系统化工程。具体来看:

策略即代码:让安全规则“可编程”
面对Agent复杂多变的业务场景,硬编码的安全规则显然捉襟见肘。百度大模型安全护栏引入“策略即代码”机制,利用声明式策略语言(DSL)定义智能体的行为规则。安全策略因此具备可编程、可版本化、可审计的特性。安全人员可以像写代码一样灵活定义细粒度的行为约束,并根据业务迭代实时更新策略版本,确保风控规则始终与业务逻辑同步。

严格的准入:打造可信工具供应链
针对工具调用风险,百度大模型安全护栏构建了来源签名与准入体系。这相当于为智能体设立了专属的“可信应用商店”——只有经过安全审核并附带数字签名的工具,才能进入Agent的调用列表。该机制从源头上阻断恶意插件和被篡改的API混入系统,有效防御针对智能体工具链的供应链攻击。

最小权限沙箱:隔离与资源控制
当智能体执行操作时,百度大模型安全护栏提供沙箱隔离技术。所有工具调用在受限的隔离环境中运行,严格限定资源访问边界。同时遵循最小权限原则,Agent仅能获取完成当前任务所需的最低权限。架构中还集成了配额与节流控制——通过限制时间窗口内的操作次数、步数上限和循环检测,防止智能体因逻辑死循环或恶意攻击导致资源滥用。

参数级校验:微观层面的防御
在API交互的微观层面,百度大模型安全护栏实施参数级Schema验证。系统对智能体发出的每一个API调用参数进行严格的类型检查、范围约束和注入过滤,确保输入符合业务规则,从而防止SQL注入或命令注入等传统Web攻击手段通过Agent这个新入口渗透进来。

敏感动作机制:人机协同的最后一道坎
对于资金往来、数据删除等高风险操作,技术防御之外必须引入人的智慧。百度大模型安全护栏构建了“敏感动作确认与回滚”机制——在执行关键决策前,智能体会触发“二次确认”,引入人机协同流程,经人工审批通过后方可执行。同时,系统完整保留操作日志和状态快照,支持失败情况下的快速回滚与补偿动作介入。


智能体安全防护体系建设思路图

整场演讲下来,“可回答”到“可执行”的演进路径清晰可见。AI能力的跃升要求安全防御必须同步进化。百度安全通过构建这套集策略管控、运行时隔离、供应链治理与人机协同于一体的防护架构,将“构建安全共识,共筑可信未来”的愿景转化为实实在在的产业实践。未来,百度安全将继续依托中国人工智能产业发展联盟(AIIA)安全治理委员会这一平台,发挥技术领军企业的示范作用,与产业界共同探索人工智能安全治理的最佳实践——把智能体安全、大模型攻防及数据安全等领域的积累转化为行业共识,护航人工智能在更安全、更可信的轨道上赋能千行百业。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策