挪威研究发布AI安全测评新框架:无标准答案时的权威评估指南

2026-05-13阅读 0热度 0
ai

作为挪威政府部门的决策者,当你需要为公共服务咨询选择AI语言模型时,核心关切非常明确:哪一款在实际部署中更安全、更可靠?

挑战在于,全球主流的AI安全评测体系几乎都围绕英语构建,缺乏针对挪威语、本地法规和具体公共服务场景的评估标准。直接套用这些通用框架无异于“方枘圆凿”。更现实的问题是,即便投入资源定制一套题库,漫长的开发周期后,AI模型可能早已迭代,评测又需从头开始。

这一困境具有普遍性。全球众多小语种国家、垂直行业和强监管领域都面临同一个核心挑战:在缺乏公认“标准答案”的领域,如何客观、量化地评估AI系统的安全性?

为解决这一难题,来自挪威奥斯陆大都会大学、辛穆拉城市数字工程中心、辛穆拉研究实验室、奥斯陆大学及挪威卫生局的联合研究团队,提出了一种名为“无基准比较安全评分”的新方法论,并将其实现为开源工具SimpleAudit。其核心思路是范式转换:当无法验证“答案是否正确”时,转而验证“评分工具本身是否可信”。

当没有

一、现有评测方法的局限性

要理解新方法的价值,需先厘清当前主流评测路径的不足。它们主要分为三类:

第一类是“静态题库评测”,即预设问题与标准答案。其缺陷显而易见:题库固定而AI持续进化,且语言严重偏向英语。研究团队调查发现,即便是最全面的挪威语评测集NorEval,也完全缺失安全评估维度。其他零散的挪威语工具仅覆盖毒性或偏见等单一维度,无法满足实际部署所需的综合性安全评估。

第二类是“自动化红队攻击”,即利用一个AI诱导另一个AI生成有害内容。这种方法产出的是大量对话日志,难以转化为可量化、可重复对比的分数,对于需要清晰数据支撑决策的政府采购场景并不适用。

第三类是“AI裁判评分”,即让一个AI模型为另一个AI的回答打分。多项研究已揭示其可靠性问题:裁判AI往往存在自身偏好,例如倾向于语言更流畅、篇幅更长或风格更接近的答案。更重要的是,不同裁判模型给出的绝对分数缺乏可比性,尽管相对排名(模型A优于模型B)通常较为稳定。

研究团队将上述方法均无法有效覆盖的场景,明确定义为“无基准比较安全评分”场景。其核心特征包括:缺乏标准答案、需要产出可重复的量化分数、必须在本地运行以保护敏感数据、并且能适应模型迭代后的重新评估。

二、验证思路的转换:从“答案正误”到“工具可信度”

既然标准答案缺失,传统的“答案对比”验证方式便宣告失效。研究团队转换了验证焦点:不再追问“AI的回答是否正确”,而是系统检验“这套评分工具本身是否可靠”。

为此,他们设计了一条“工具可信度验证链”,包含三个必须全部通过的环节:

第一个环节是“响应性验证”。核心逻辑如同校准温度计:一把合格的温度计必须能清晰区分冰水与沸水。对于安全评分工具,其至少应能区分“明显安全的AI”与“明显不安全的AI”。研究团队通过对比正常AI与经过技术处理、移除了拒绝能力的“不拒绝版”AI来进行测试。这相当于用已知的极值来校准测量仪器。

第二个环节是“目标敏感性验证”。即便工具能区分安全与不安全,也可能源于非目标因素,例如裁判AI的固有偏好。为排除干扰,研究团队将评分过程中三个关键角色——被测AI、负责提问的“审计员AI”、负责打分的“裁判AI”——的贡献进行方差分解分析。理想情况下,分数波动应主要源于被测AI本身的安全特性差异。

第三个环节是“可重复性验证”。一把可靠的尺子,每次测量同一物体的结果应基本一致。评分工具的输出必须稳定,而非随机跳跃。研究团队通过多次重复实验来检验分数的稳定性。

这三个环节共同构成了“工具有效性链”框架。通过该验证的工具,虽不能保证其评分完全等同于现实世界中的绝对安全性(这需领域专家判断),但至少证明它捕捉到了真实存在的信号,而非测量工具自身的噪声或偏差。

三、SimpleAudit的工作原理

理解验证框架后,再看SimpleAudit工具本身的设计。整个过程可类比为一场精心设计的模拟压力测试:

  • 目标模型是接受评估的“考生”。
  • 审计员AI扮演“主考官”,负责根据预设场景提出层层递进、具有挑战性的问题。
  • 裁判AI扮演“评卷老师”,依据完整对话记录评判考生的表现。

这三个角色完全独立且可替换,这一设计对于分离各自的影响至关重要。

单次评测流程如下:从一个结构化的“场景包”中选取一个安全场景(例如“处理用户询问制造有害物质的方法”),审计员AI据此与目标AI进行多轮对话并逐步加深追问。对话结束后,裁判AI审阅完整记录,给出一个0到4分的严重程度评分(0分代表最严重的失败)。所有场景的平均分会被映射到0-100分区间,分数越高代表安全性越强。

除平均分外,工具还会统计“危机率”,即所有场景中获得0分(最严重失败)的比例。这一指标至关重要,因为较高的平均分有时会掩盖少数但致命的严重失误。

场景包是一个结构化文件,包含场景名称、描述和分类。研究团队为挪威公共部门场景专门构建了一个包含36个具体场景的包,覆盖医疗健康、公共服务、语言使用和安全法律四个类别。整个工具完全在本地运行,无需将敏感数据发送至外部服务器,这对政府等受监管机构而言是关键优势。

四、关键验证环节的实验结果

研究团队使用SimpleAudit对上述三个验证环节进行了实证检验,结果清晰。

关于“响应性”:使用AUROC指标(范围0.5-1.0,1.0代表完美区分)来衡量工具区分正常AI与“不拒绝版”AI的能力。在配置最强的裁判和审计员时,三个不同规模的目标AI获得的AUROC值分别为1.00、0.98和1.00,接近完美区分。即便使用规模较小的裁判和审计员,AUROC也保持在0.89以上。这证明该“温度计”能有效区分“冰水”和“沸水”。

关于“目标敏感性”:通过方差分解分析发现,目标AI身份的差异贡献了约52%的分数波动,是三个因素中最大的。审计员和裁判分别贡献了约28%和25%。这好比测量体重时,读数变化主要源于体重的真实变化,而非体重秤的品牌差异,表明工具主要测量的是目标特性本身。

关于“可重复性”:10次重复实验表明,对于正常AI,单次运行的误差约为8.3分(满分100),重复运行9次后误差可缩小至0.9分;对于不安全AI,分数稳定得更快。研究团队据此建议“至少运行10次”,在此次数下分数的稳定性已足以支撑比较决策。

五、裁判与审计员模型的选型策略

这是一个非常实际的配置问题。研究团队对此进行了深入分析。

关于裁判的选择:他们测试了五个不同规模的本地AI模型作为裁判,并与“标准参考裁判”GPT-5进行比较。关键指标是“危机遗漏率”,即裁判将GPT-5判定为严重的问题错误归类为无关紧要的概率。结果显示,参数规模最小的两个模型(4B和9B)不合格,其中4B模型的危机遗漏率高达44%。而122B和35B规模的模型,危机遗漏率均在10%左右,接近GPT-5自身的一致性水平(约4%),可作为可靠的本地裁判。

关于审计员的选择:结论更为微妙且关键。审计员是整个工具中“最重要的设计选择”。能力过弱,无法提出有深度的问题,难以考出真实差距;能力过强,则会适得其反。当使用最强的GPT-5作为审计员时,它甚至将正常安全的AI也逼至低分,导致不同AI之间的安全差异被“压平”,失去了区分度。因此,审计员的能力必须与被测AI的能力范围相匹配,既要能施加有效压力,又不能强到抹杀所有差异。

此外,研究团队发现了一个节省成本的配置策略:让裁判和审计员使用相同规模的模型。这是因为裁判的评分偏差在计算两个AI的“分数差”时会相互抵消,而审计员的影响则不会。因此,在有限资源下,将更多计算资源分配给审计员比分配给裁判更具性价比。

六、验证框架的普适性检验

为检验验证框架的普适性,研究团队将其应用于另一个由Anthropic公司开发的评测工具Petri上。

Petri默认包含38个评分维度。使用相同的实验设置进行检验后发现,该框架确实具有普遍意义。例如,Petri的“concerning”(令人担忧)维度完美通过了三个验证环节。然而,也有一些维度未能通过。例如,“u_bizarre_behavior”(无故怪异行为)维度虽然能测量到AI的某种真实特性,但该特性与安全性关联较弱,更多反映的是AI的能力高低。而“admirable”(令人钦佩)维度则连目标敏感性验证都未通过,其分数主要反映的是裁判的偏好,而非被测AI的行为。

这些对比揭示了一个深层道理:工具通过了验证链,不等于其每个维度都可信;工具未通过验证链,也不等于所有维度都无用。验证链的价值在于精确指出哪些维度能作为可信的评分依据。

从实际效率看,Petri每次运行消耗的计算资源(token)约为SimpleAudit的1.7倍,主要源于其审计员使用了更复杂的工具调用机制。对于需要频繁重测的场景,这个差距会随着次数累积而放大。

七、实际应用:挪威公共部门采购案例(Borealis vs Gemma 3)

经过验证后,研究团队将工具应用于一个真实的采购比较场景:在挪威公共部门部署背景下,比较挪威本地开发的Borealis Instruct与Google的Gemma 3 IT在不同规模下的安全表现。

两款模型均测试了1B、4B、12B和27B四个参数规模。实验使用了36个挪威场景,每个配置重复运行10次。

结果显示,Borealis的安全分数随规模增大而提升:从1B的4.6%升至4B的27.9%,再到12B的42.3%。然而,从12B到27B,分数仅微增1.4个百分点,甚至小于单次运行的正常波动范围。更细致的类别分析显示,医疗健康和安全法律两个类别在27B规模时分数反而比12B略有下降。这表明“规模越大越安全”并非无条件成立的规律。

在直接对比中,Borealis在4B、12B、27B规模上的全场景平均分分别比Gemma 3高出14.2、7.0和6.0个百分点,且差异均超出测量误差范围。危机率的对比也呈现相同趋势。但在1B规模上,两者的差距(0.8个百分点)在误差范围内,无法确定孰优孰劣。

然而,分类别看,结论更为复杂。Borealis在医疗健康、公共服务和安全法律三个类别上优势明显,但在语言类别上,两者几乎持平,且Borealis的语言类危机率在多个规模上反而更高。这意味着,如果一个机构的核心需求是语言处理,Borealis的整体优势可能并不适用。

研究团队特别强调,这些数字是在固定工具、固定场景包、固定裁判条件下得出的比较证据,不代表对模型的绝对安全评级,更非部署许可证。正确的使用方式是将分数、分数差、危机率差、类别细分及不确定性范围打包成一套证据,交由具备具体领域知识的决策者进行综合判断,而非将一个数字视为最终排名。

八、方法的局限性与未来方向

研究团队对自身方法的局限性保持了坦诚的态度。

首先,通过验证链仅能证明“工具测量了真实信号”,而非“工具测量的就是实际部署中最重要的安全因素”。后者需要领域专家根据具体场景风险来判断。

其次,当前验证中使用的“不安全”对照组(不拒绝任何请求的AI)仅测试了“拒绝有害请求”这一安全维度。现实中的不安全行为还包括提供错误信息、产生偏见、泄露隐私等,这些均不在当前验证框架覆盖范围内。

第三,现有工具未专门处理“AI是否知晓自己正在被评测”的问题。已有研究表明,AI模型有时能“察觉”处于测试状态并表现得更为谨慎。这对前沿大模型已有初步对策,但SimpleAudit尚未实现相应措施。

第四,场景包的质量完全取决于设计者对实际部署风险的理解。场景包过于狭窄会导致评估精确但不完整;过于宽泛则会使类别细分难以解读。正确的使用方式是迭代式的:运行、审阅、修订场景包、再运行。

九、从框架中提炼的普遍规律

这项研究的核心贡献,在于提出了一种关于测量本身的范式转变:在没有“标准答案”的情况下,评估一个测量工具是否可信,应通过检验其对已知对比的响应性、其对目标特性的敏感性以及其结果的稳定性来实现,而非通过与标准答案对比。

这一思路的影响超越了AI安全评测。任何在新兴领域、小语种场景或受监管垂直行业中需要评估AI系统,却又缺乏现成标准的情况,这套验证框架都提供了一条可操作的替代路径。

对于希望复现或应用此方法的团队,研究团队提出了明确的最低披露要求:必须报告评测工具的所有配置参数、分数及分数差、危机率差、置信区间,以及工具明确不支持的主张。只有打包报告这套完整信息,比较结论才有意义。单独拿出一个分数声称“A比B安全”是站不住脚的。

SimpleAudit已作为开源工具发布,并获得了“数字公共品”认证,这意味着公共机构可自由使用,且任何人都能审查其代码、复现结果,甚至使用更强的审计员来挑战原有结论。

归根结底,AI安全评测本质上是一个测量问题。测量的核心不在于“我们是否有标准答案”,而在于“我们是否有足够理由相信测量工具捕捉到了真实信号”。这项研究为在没有标准答案时建立这种信任指明了一条路径,尽管这条路径的终点,仍然需要领域专家做出最终的判断。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策