OpenAI回应布兰矩阵算法安全问题详解

2026-06-23阅读 0热度 0

OpenAI

AI算法安全正从实验室走向实战前沿。布兰矩阵算法安全团队近期发现并负责任披露了一项名为Abyssal Soul Heist的研究成果，揭示模型设计缺陷在特定环境下会向外扩散，演变为系统级乃至网络级风险。

研究已提交给相关厂商（OpenAI），并收到了正式回复。借此机会，我们希望推动行业、监管与学界之间形成更高效的协同沟通机制——AI时代的用户安全，不能只靠单点修复。

一、Abyssal Soul Heist安全问题说明

通过构造特定的自然语言“攻击”载荷，攻击者能够使模型在同一服务中读取并越权访问其他会话的历史内容，并通过外部可控路径将敏感信息传出。本质上，这突破了会话隔离与访问控制机制，导致未经授权的数据访问与跨会话泄露。

关键特征与影响：

零点击特征：漏洞不依赖任何额外用户交互或点击，受害者可能在完全不知情的情况下被窃取信息。

格式化渲染被滥用：攻击可利用富文本、链接等渲染机制，将被窃取的数据隐蔽传输出去，大幅增加检测难度。

受影响范围：所有以会话隔离为设计前提的多会话Web/API环境，尤其是将会话历史用作个性化记忆或状态的服务，都是潜在目标。

潜在后果：窃取跨会话历史聊天记录——其中可能包含敏感信息、API凭证片段、业务数据等，对科研机构、企业和高度敏感用户来说，这是灾难性的。

安全检测盲区：在当前攻击模式下，许多传统端侧与网络层的检测手段（如常规流量特征检测、沙箱行为分析）很难直接识别或拦截，攻击面被显著放大。

对抗高级威胁：这类漏洞可被APT组织快速利用，在目标用户或组织间实现无感窃取和定向信息获取。

这个案例清晰展示了“模型功能设计 → 用户体验 → 安全外溢”的风险链条——那些为了提升体验而引入的持久化、个性化功能（比如session/记忆机制），如果没有充分的模型级与系统级防护，就会成为数据泄露的放大器。对策必须覆盖从模型输出约束、会话隔离强化、最小权限执行，到端到端审计与应急响应的全链路治理。

二、事件与OpenAI回复要点

OpenAI在用户层面推出了session功能，旨在让每个用户拥有一个独立的个性化“贾维斯”，在持续对话和多轮任务中更贴合需求。这个方向本身是合理的——它标志着AI服务从“无记忆的一次性工具”向“伴随式智能助理”的进化。

但正是这种持久化、个性化的会话设计，构成了Abyssal Soul Heist攻击链路的构造前提。模型在session中保持状态与跨任务记忆，一旦叠加外部调用，就可能成为新的攻击面。

在向OpenAI提交研究与责任披露后，厂方书面回复表达了两层意思：一是肯定这是一条“interesting path of research”（有研究价值的路线）；二是根据其现行Bug Bounty计划，将“general model issues”（模型层面上的通用安全问题）排除在赏金范围之外，赏金计划只聚焦于“低交互、可复现、绕过特定应用层prompt-injection防护”的exploit——更接近传统Web/应用层漏洞的情形。

坦率地说，对OpenAI的回复，我们的理解是：厂方在形式上认可了该研究的学术与安全价值，但按既定商业与赏金框架，并不将这类模型层级的问题纳入自动奖励条目。这本身就是一个有价值的信息点：它提示了当前主流漏洞激励机制与模型层风险之间存在结构性不匹配。我们的目标仍是推动行业讨论，促进更广泛的制度性改进。

三、关于OpenAI处置与时间线

已确认的信息是：在我们向厂方提交该问题并进行责任披露后，约两个月的时间窗口内，厂方对外报告中所涉及的、可被直接利用的具体点进行了修复或缓解。

对厂方迅速修复具体可滥用点的做法，我们表示肯定——这也印证了负责任披露在降低现实风险中的积极作用。研究复现过程中我们做了完整的录屏保留。

但与此同时，我们也必须指出：技术处置与赏金政策上的分离带来了一个悖论——即便厂方已修复问题，对研究者的制度性回馈（如赏金或正式承认）并未覆盖所有对公众安全具有重要意义的发现。我们尊重厂方现有规则，但也期待未来能建立更包容、更能反映“模型—系统联动风险”价值的协作机制。

四、不为赏金而研究，为全体用户与产业安全而研究

赏金从来不是驱动我们前行的核心动力。真正让我们持续投入研究与披露的，是对“AI算法安全即用户安全、产业安全、社会安全”的深切关注。Abyssal Soul Heist的发现说明：模型层面的偏差或弱点并非孤立存在，而是在与外部系统耦合时可能变成实质性的威胁链条。对此，布兰矩阵团队有三点明确主张：

跨界治理：模型安全必须纳入“模型—系统—运维”全链路治理，而非仅限于模型开发或应用层单点修补。
制度创新：建议建立或扩展漏洞激励机制（如Algorithmic Bug Bounty / AI Security Bounty），将模型层与系统耦合风险的发现纳入激励与修复流程。
国际与国内协作通道：单靠任何一家厂商都无法独立解决全局性风险，必须搭建企业、学界、安全社区、媒体与监管机构之间的常态化协作机制。

五、请国内监管与行业伙伴关注并参与

我们特别期待国内相关监管与治理主体（如网络安全主管部门）能够：

关注模型层面到网络空间的外溢风险；
把算法安全纳入网络与数据安全的整体监管框架（参考公安部三所发布的榜单，布兰矩阵提供技术支持）；
支持产学研协同，推动建立跨界披露与应急响应通道——例如针对AI的RCD（Responsible Coordinated Disclosure）机制。（团队已起草RCD-AI草案）

在合规与受控的条件下，团队愿意与监管单位共享必要的技术细节与检测指标，协助风险评估与治理实践。

六、我们对团队贡献的声明与适度的失望

布兰矩阵研究团队为本次发现投入了大量的人力与时间：从威胁建模、受控复现、负责任披露，到跟踪厂商修复进展，每一步都力求专业与谨慎。

我们很高兴看到厂商对可滥用点的修复——这体现了负责任披露的价值。但同时，厂方将“研究价值”的肯定与“赏金激励”分离，使得像我们这样对全局安全有警示价值的工作，在制度上没有获得对等的激励或公开表彰。这种落差确实令人有些失望，但并不会动摇我们继续推动行业进步的决心。

下一步计划：

在不泄露可滥用细节的前提下，发布一份公开白皮书，阐述风险模型、检测指标与高层缓解建议。
向国际安全组织、国内监管与行业社区提交研究摘要，推动“模型→系统外溢”纳入公共安全议程。
与国内监管机构积极对接，探讨建立AI专属的协调披露与应急响应机制。
继续推进学术与工业合作，完善检测工具链与审计能力，并在合适渠道分享指标与无害化测试方法。

七、写在最后

Abyssal Soul Heist只是一个开端——它提醒我们：当现实世界越来越依赖算法驱动决策与自动化执行时，算法自身的安全就是公共安全的重要组成部分。我们不在乎一笔赏金，但我们在乎所有用户在算法时代的安全与尊严。布兰矩阵愿与各界一道，把对话从“单点修复”升级为“制度与协同治理”，共同守护一个更安全、更可靠的AI时代。