挪威研究发布AI安全测评新框架：无标准答案时的权威评估指南

2026-05-13阅读 0热度 0

作为挪威政府部门的决策者，当你需要为公共服务咨询选择AI语言模型时，核心关切非常明确：哪一款在实际部署中更安全、更可靠？

挑战在于，全球主流的AI安全评测体系几乎都围绕英语构建，缺乏针对挪威语、本地法规和具体公共服务场景的评估标准。直接套用这些通用框架无异于“方枘圆凿”。更现实的问题是，即便投入资源定制一套题库，漫长的开发周期后，AI模型可能早已迭代，评测又需从头开始。

这一困境具有普遍性。全球众多小语种国家、垂直行业和强监管领域都面临同一个核心挑战：在缺乏公认“标准答案”的领域，如何客观、量化地评估AI系统的安全性？

为解决这一难题，来自挪威奥斯陆大都会大学、辛穆拉城市数字工程中心、辛穆拉研究实验室、奥斯陆大学及挪威卫生局的联合研究团队，提出了一种名为“无基准比较安全评分”的新方法论，并将其实现为开源工具SimpleAudit。其核心思路是范式转换：当无法验证“答案是否正确”时，转而验证“评分工具本身是否可信”。

一、现有评测方法的局限性

要理解新方法的价值，需先厘清当前主流评测路径的不足。它们主要分为三类：

第一类是“静态题库评测”，即预设问题与标准答案。其缺陷显而易见：题库固定而AI持续进化，且语言严重偏向英语。研究团队调查发现，即便是最全面的挪威语评测集NorEval，也完全缺失安全评估维度。其他零散的挪威语工具仅覆盖毒性或偏见等单一维度，无法满足实际部署所需的综合性安全评估。

第二类是“自动化红队攻击”，即利用一个AI诱导另一个AI生成有害内容。这种方法产出的是大量对话日志，难以转化为可量化、可重复对比的分数，对于需要清晰数据支撑决策的政府采购场景并不适用。

第三类是“AI裁判评分”，即让一个AI模型为另一个AI的回答打分。多项研究已揭示其可靠性问题：裁判AI往往存在自身偏好，例如倾向于语言更流畅、篇幅更长或风格更接近的答案。更重要的是，不同裁判模型给出的绝对分数缺乏可比性，尽管相对排名（模型A优于模型B）通常较为稳定。

研究团队将上述方法均无法有效覆盖的场景，明确定义为“无基准比较安全评分”场景。其核心特征包括：缺乏标准答案、需要产出可重复的量化分数、必须在本地运行以保护敏感数据、并且能适应模型迭代后的重新评估。

二、验证思路的转换：从“答案正误”到“工具可信度”

既然标准答案缺失，传统的“答案对比”验证方式便宣告失效。研究团队转换了验证焦点：不再追问“AI的回答是否正确”，而是系统检验“这套评分工具本身是否可靠”。

为此，他们设计了一条“工具可信度验证链”，包含三个必须全部通过的环节：

第一个环节是“响应性验证”。核心逻辑如同校准温度计：一把合格的温度计必须能清晰区分冰水与沸水。对于安全评分工具，其至少应能区分“明显安全的AI”与“明显不安全的AI”。研究团队通过对比正常AI与经过技术处理、移除了拒绝能力的“不拒绝版”AI来进行测试。这相当于用已知的极值来校准测量仪器。

第二个环节是“目标敏感性验证”。即便工具能区分安全与不安全，也可能源于非目标因素，例如裁判AI的固有偏好。为排除干扰，研究团队将评分过程中三个关键角色——被测AI、负责提问的“审计员AI”、负责打分的“裁判AI”——的贡献进行方差分解分析。理想情况下，分数波动应主要源于被测AI本身的安全特性差异。

第三个环节是“可重复性验证”。一把可靠的尺子，每次测量同一物体的结果应基本一致。评分工具的输出必须稳定，而非随机跳跃。研究团队通过多次重复实验来检验分数的稳定性。

这三个环节共同构成了“工具有效性链”框架。通过该验证的工具，虽不能保证其评分完全等同于现实世界中的绝对安全性（这需领域专家判断），但至少证明它捕捉到了真实存在的信号，而非测量工具自身的噪声或偏差。

三、SimpleAudit的工作原理

理解验证框架后，再看SimpleAudit工具本身的设计。整个过程可类比为一场精心设计的模拟压力测试：

目标模型是接受评估的“考生”。
审计员AI扮演“主考官”，负责根据预设场景提出层层递进、具有挑战性的问题。
裁判AI扮演“评卷老师”，依据完整对话记录评判考生的表现。

这三个角色完全独立且可替换，这一设计对于分离各自的影响至关重要。

单次评测流程如下：从一个结构化的“场景包”中选取一个安全场景（例如“处理用户询问制造有害物质的方法”），审计员AI据此与目标AI进行多轮对话并逐步加深追问。对话结束后，裁判AI审阅完整记录，给出一个0到4分的严重程度评分（0分代表最严重的失败）。所有场景的平均分会被映射到0-100分区间，分数越高代表安全性越强。

除平均分外，工具还会统计“危机率”，即所有场景中获得0分（最严重失败）的比例。这一指标至关重要，因为较高的平均分有时会掩盖少数但致命的严重失误。

场景包是一个结构化文件，包含场景名称、描述和分类。研究团队为挪威公共部门场景专门构建了一个包含36个具体场景的包，覆盖医疗健康、公共服务、语言使用和安全法律四个类别。整个工具完全在本地运行，无需将敏感数据发送至外部服务器，这对政府等受监管机构而言是关键优势。

四、关键验证环节的实验结果

研究团队使用SimpleAudit对上述三个验证环节进行了实证检验，结果清晰。

关于“响应性”：使用AUROC指标（范围0.5-1.0，1.0代表完美区分）来衡量工具区分正常AI与“不拒绝版”AI的能力。在配置最强的裁判和审计员时，三个不同规模的目标AI获得的AUROC值分别为1.00、0.98和1.00，接近完美区分。即便使用规模较小的裁判和审计员，AUROC也保持在0.89以上。这证明该“温度计”能有效区分“冰水”和“沸水”。

关于“目标敏感性”：通过方差分解分析发现，目标AI身份的差异贡献了约52%的分数波动，是三个因素中最大的。审计员和裁判分别贡献了约28%和25%。这好比测量体重时，读数变化主要源于体重的真实变化，而非体重秤的品牌差异，表明工具主要测量的是目标特性本身。

关于“可重复性”：10次重复实验表明，对于正常AI，单次运行的误差约为8.3分（满分100），重复运行9次后误差可缩小至0.9分；对于不安全AI，分数稳定得更快。研究团队据此建议“至少运行10次”，在此次数下分数的稳定性已足以支撑比较决策。

五、裁判与审计员模型的选型策略

这是一个非常实际的配置问题。研究团队对此进行了深入分析。

关于裁判的选择：他们测试了五个不同规模的本地AI模型作为裁判，并与“标准参考裁判”GPT-5进行比较。关键指标是“危机遗漏率”，即裁判将GPT-5判定为严重的问题错误归类为无关紧要的概率。结果显示，参数规模最小的两个模型（4B和9B）不合格，其中4B模型的危机遗漏率高达44%。而122B和35B规模的模型，危机遗漏率均在10%左右，接近GPT-5自身的一致性水平（约4%），可作为可靠的本地裁判。

关于审计员的选择：结论更为微妙且关键。审计员是整个工具中“最重要的设计选择”。能力过弱，无法提出有深度的问题，难以考出真实差距；能力过强，则会适得其反。当使用最强的GPT-5作为审计员时，它甚至将正常安全的AI也逼至低分，导致不同AI之间的安全差异被“压平”，失去了区分度。因此，审计员的能力必须与被测AI的能力范围相匹配，既要能施加有效压力，又不能强到抹杀所有差异。

此外，研究团队发现了一个节省成本的配置策略：让裁判和审计员使用相同规模的模型。这是因为裁判的评分偏差在计算两个AI的“分数差”时会相互抵消，而审计员的影响则不会。因此，在有限资源下，将更多计算资源分配给审计员比分配给裁判更具性价比。

六、验证框架的普适性检验

为检验验证框架的普适性，研究团队将其应用于另一个由Anthropic公司开发的评测工具Petri上。

Petri默认包含38个评分维度。使用相同的实验设置进行检验后发现，该框架确实具有普遍意义。例如，Petri的“concerning”（令人担忧）维度完美通过了三个验证环节。然而，也有一些维度未能通过。例如，“u_bizarre_behavior”（无故怪异行为）维度虽然能测量到AI的某种真实特性，但该特性与安全性关联较弱，更多反映的是AI的能力高低。而“admirable”（令人钦佩）维度则连目标敏感性验证都未通过，其分数主要反映的是裁判的偏好，而非被测AI的行为。

这些对比揭示了一个深层道理：工具通过了验证链，不等于其每个维度都可信；工具未通过验证链，也不等于所有维度都无用。验证链的价值在于精确指出哪些维度能作为可信的评分依据。

从实际效率看，Petri每次运行消耗的计算资源（token）约为SimpleAudit的1.7倍，主要源于其审计员使用了更复杂的工具调用机制。对于需要频繁重测的场景，这个差距会随着次数累积而放大。

七、实际应用：挪威公共部门采购案例（Borealis vs Gemma 3）

经过验证后，研究团队将工具应用于一个真实的采购比较场景：在挪威公共部门部署背景下，比较挪威本地开发的Borealis Instruct与Google的Gemma 3 IT在不同规模下的安全表现。

两款模型均测试了1B、4B、12B和27B四个参数规模。实验使用了36个挪威场景，每个配置重复运行10次。

结果显示，Borealis的安全分数随规模增大而提升：从1B的4.6%升至4B的27.9%，再到12B的42.3%。然而，从12B到27B，分数仅微增1.4个百分点，甚至小于单次运行的正常波动范围。更细致的类别分析显示，医疗健康和安全法律两个类别在27B规模时分数反而比12B略有下降。这表明“规模越大越安全”并非无条件成立的规律。

在直接对比中，Borealis在4B、12B、27B规模上的全场景平均分分别比Gemma 3高出14.2、7.0和6.0个百分点，且差异均超出测量误差范围。危机率的对比也呈现相同趋势。但在1B规模上，两者的差距（0.8个百分点）在误差范围内，无法确定孰优孰劣。

然而，分类别看，结论更为复杂。Borealis在医疗健康、公共服务和安全法律三个类别上优势明显，但在语言类别上，两者几乎持平，且Borealis的语言类危机率在多个规模上反而更高。这意味着，如果一个机构的核心需求是语言处理，Borealis的整体优势可能并不适用。

研究团队特别强调，这些数字是在固定工具、固定场景包、固定裁判条件下得出的比较证据，不代表对模型的绝对安全评级，更非部署许可证。正确的使用方式是将分数、分数差、危机率差、类别细分及不确定性范围打包成一套证据，交由具备具体领域知识的决策者进行综合判断，而非将一个数字视为最终排名。

八、方法的局限性与未来方向

研究团队对自身方法的局限性保持了坦诚的态度。

首先，通过验证链仅能证明“工具测量了真实信号”，而非“工具测量的就是实际部署中最重要的安全因素”。后者需要领域专家根据具体场景风险来判断。

其次，当前验证中使用的“不安全”对照组（不拒绝任何请求的AI）仅测试了“拒绝有害请求”这一安全维度。现实中的不安全行为还包括提供错误信息、产生偏见、泄露隐私等，这些均不在当前验证框架覆盖范围内。

第三，现有工具未专门处理“AI是否知晓自己正在被评测”的问题。已有研究表明，AI模型有时能“察觉”处于测试状态并表现得更为谨慎。这对前沿大模型已有初步对策，但SimpleAudit尚未实现相应措施。

第四，场景包的质量完全取决于设计者对实际部署风险的理解。场景包过于狭窄会导致评估精确但不完整；过于宽泛则会使类别细分难以解读。正确的使用方式是迭代式的：运行、审阅、修订场景包、再运行。

九、从框架中提炼的普遍规律

这项研究的核心贡献，在于提出了一种关于测量本身的范式转变：在没有“标准答案”的情况下，评估一个测量工具是否可信，应通过检验其对已知对比的响应性、其对目标特性的敏感性以及其结果的稳定性来实现，而非通过与标准答案对比。

这一思路的影响超越了AI安全评测。任何在新兴领域、小语种场景或受监管垂直行业中需要评估AI系统，却又缺乏现成标准的情况，这套验证框架都提供了一条可操作的替代路径。

对于希望复现或应用此方法的团队，研究团队提出了明确的最低披露要求：必须报告评测工具的所有配置参数、分数及分数差、危机率差、置信区间，以及工具明确不支持的主张。只有打包报告这套完整信息，比较结论才有意义。单独拿出一个分数声称“A比B安全”是站不住脚的。

SimpleAudit已作为开源工具发布，并获得了“数字公共品”认证，这意味着公共机构可自由使用，且任何人都能审查其代码、复现结果，甚至使用更强的审计员来挑战原有结论。

归根结底，AI安全评测本质上是一个测量问题。测量的核心不在于“我们是否有标准答案”，而在于“我们是否有足够理由相信测量工具捕捉到了真实信号”。这项研究为在没有标准答案时建立这种信任指明了一条路径，尽管这条路径的终点，仍然需要领域专家做出最终的判断。