需要原始标题才能优化。
我们先来看一个场景:某个组织内部,一个人工智能模型正在运行,处理一个棘手的决策。这个问题没有标准答案——可能是棘手的客户投诉,可能是员工对裁员流程的咨询,也可能是医疗保险核保员在审核理赔。模型会自行决定如何回应:哪些可以拒绝,哪些可以允许,在什么情况下可以坦诚相告,又如何在客户利益与公司政策之间找到平衡。整个过程只需一两秒钟,而且每次都以相同的方式做出决定。因为早在问题出现之前,这个判断就已经被做好了。更关键的是,做出判断的不是运行这个模型的组织,而是开发它的供应商——他们为一个全球通用的产品设计了这个模型,在他们签约之前,判断就已经定型了。
以上并非一个假设出的思想实验。2026年发表在预印本平台arXiv上的一篇论文《多模态学习模型中的对齐漂移》,就评估了八个模型版本,并以26位专家编写的726个对抗性提示作为固定基准——这些专家的任务就是找出模型的软肋。研究结果显示,不同模型系列在处理伦理敏感问题时,存在显著且持续的差异,并且这种差异在不同版本之间还会发生明显的“漂移”。2025年,一家大型基金会模型提供商在承认其模型过于“顺从”后,公开撤回了更新。结果呢?所有使用该模型的机构都在未提出任何要求的情况下,被动接受了这一变更,然后又同样被动地接受了撤销。整个过程,没有任何机构主动选择过什么。
一个组织有它自己认可的立场,白纸黑字地写在行为准则、价值观声明和道德规范里。但实际投入生产的那个模型,却遵循着另一套准则,完全不走组织的路子。这两套准则本身没有对错之分,它们只是两个各自能站住脚的立场,只是方向不同。董事会的任务是弥合这个差距,但在大多数组织中,这个差距其实是被“默认解决”的——换句话说,根本没有人拍板决定过什么。
模型的伦理观从何而来,以及为何你无法完全读懂它
一个模型在被部署时,已经自带一套稳定的预设原则:它会拒绝什么,如何构建一个敏感议题,以及怎样处理一个双方都有合理考量的两难问题。这些预设原则,就构成了它固有的伦理准则。至于模型在更深层次上是否“承载”了价值观,这个哲学问题可以留给学者们去争论。对治理而言,真正重要的是:一旦模型部署完毕,这些预设原则就开始扮演伦理标准的角色。它们会做出裁决,而且这些裁决基于模型提供者选择的立场,而不是什么中立的默认值。其实,一个组织本来也一直在其他机构设定的标准下运作,比如审计机构、保险公司、运行平台等等。但这次的新变化在于,这种固有的标准不再只是设定一个边界,而是开始以组织的名义,逐案地行使判断权。
这些倾向的来源主要有两个,而且都位于部署机构的上游。第一是预训练阶段,模型从训练素材中“习得”先验知识。第二是调整阶段,提供者通过人类反馈的强化学习、宪法方法,以及一系列明确的政策选择(比如拒绝方式、语气、框架构建、对争议性问题的处理),来塑造模型的行为。这些都是货真价实的伦理选择,由提供者为全球产品做出,与后续任何使用该产品的组织无关。
这些选择的“可见度”,完全取决于它们与观察者自身价值观的差异。那些与自己价值观贴近的标准,看起来合情合理,根本不会引起注意;而那些与自己价值观八竿子打不着的标准,就会显得格外扎眼。举个例子,一个根据某国政府内容规则训练出来的模型,会明显拒绝该国政府不乐意看到的内容;在涉及有争议的历史或主权问题时,它也会倾向于呈现当地政府偏好的解释,而不是客观描述争议本身。对于另一个司法管辖区的委员会来说,这种立场简直不要太“显眼”,而且大概率会让人反感。但它之所以显眼,仅仅是因为它与这个委员会自身的立场背道而驰。反过来说,一个构建在更接近委员会自身价值观的前沿模型,同样也会通过类似的选择来嵌入一套立场,只不过因为它恰好符合部署者的假设,看起来才显得“中立”。但中立从来就不是它的本质。那些令人反感的标准会被拒之门外,而那些合意的标准则会被不加审视地接纳,然后被组织吸收为自身的标准。
更麻烦的是,组织实际上无法完整地“阅读”这些选择。根据斯坦福大学发布的2025年版本模型透明度指数,主要模型提供商的平均得分大约是40分(满分100分),比一年前的58分还要低。信息披露的改进更多停留在形式上,而非实质上。欧盟《人工智能法案》要求通用模型提供商公开文档,配套的《通用人工智能实践准则》也提供了一份标准的文档表格。但这些表格只是披露了已经做出的价值选择,并没有赋予部署组织任何选择权或否决权。
标准也并非一成不变:模型的每个新版本都可能改变应用层之下的底层配置。董事会上季度批准的那个模型,和本季度正在运行的模型,严格来说已经不是同一个模型了,而且这种变化无需重新批准就能发生。这些“引入的标准”会在几个可识别的时刻生效:模型首次获批时、新版本被接受时、部署范围扩大到更敏感的应用时、异常配置被处理时、以及故障被悄悄掩盖而非上报时。每一个时刻,都是检验这些标准的机会。然而,在大多数组织中,大多数标准都未经检验就轻松过关了。在董事会所关注的六大核心问题中,这个问题直接涉及两项:道德与法律责任,以及风险管理。而更要命的是,它恰好发生在董事会最不可能关注的时刻。
为什么那些常用的解决方法,效果有限
一遇到问题,大家的第一反应往往是:“应用层不是已经处理了吗?” 确实,我们有很多工具可用,每一个都能完成一些实际工作。但坦白说,没有一个工具能完全胜任这里所提出的要求。
系统提示和既定的指令,能从表面上塑造模型的语气、拒绝姿态和框架构建。但它们只是建立在模型已经训练好的倾向之上,并进行引导。它们更像是给模型下达的指令,而不是对模型的重写。所以,即便是足够不寻常的输入,仍然能触及模型底层的那些倾向。
检索增强生成机制能把模型的输出建立在组织自己的文档和数据之上,这决定了模型所掌握的知识。它是一个确保准确性的正确工具,但用来处理价值观的判断就不灵了。伦理上的敏感问题,并不是给模型提供更完善的事实就能解决的,关键在于模型如何权衡这些事实——而检索机制恰恰做不到这一点。它可以改进模型的预测结果,但无法改变模型的判断方式。
防护机制和输出分类器则在模型生成结果之后,拦截那些已经定义好的非预期输出。它们就像一道安全屏障,很实用,也值得拥有。但它们的作用是处理“结果”,而不是处理产生结果的“推理过程”。它们会改变某个特定输出是否被允许通过,却不会改变模型下次会生成什么。
微调比上述所有方法都更深入,对行为的影响也更大。但它仍然建立在一个组织自己没有构建的基础之上。微调可能会以难以预测的方式损害模型的安全性和功能,而且那些功能最强大的封闭模型,往往根本不开放给客户进行微调。微调确实能带来真实的变化,但这种变化是建立在组织“借用”而非“构建”的基础之上的。
最后,以组织价值观为标准进行评估,是每个组织都应该使用的工具,因为它是唯一能告诉你模型行为是否与组织理念一致的方法。但它也只是告诉你“结果”,让你看清自己的立场,却无法改变你的行为。
把这两者放在一起看,界限就清晰了。应用层允许组织约束模型、进行过滤、加以测量,有时候效果非常显著,以至于残余的差距小到可以忽略。但它始终无法让你“替换”掉底层架构。一个足够复杂的应用栈可以主导用户能遇到的绝大多数行为,如果一个组织构建了这样的应用栈,那绝对不应低估自己的成就。然而,那些预设是在预训练和校准阶段就已经设定好的,此时只有提供商参与其中。正是这些预设,而非应用栈本身,决定了那些你永远预料不到的情况。部署组织拥有应用层的控制权;而底层架构,就在它之下。这并非一个工程缺陷,而是事物本身的结构。理解了这一点的董事会,自然会据此设定对应用层的预期。
真正的选择:接受、拒绝,还是构建
既然无法从应用层更换“基材”,那这个问题就不再是一个技术问题,而是一个战略问题。它大致有三种可能的形态。
第一种方法是接受。组织大致按照供应商提供的模型来运行前沿模型,应用上述的部分缓解措施,并接受剩余的那部分伦理标准由供应商来制定。这是最快、最经济,也是能用到最强大模型的途径。它的代价就是我们一直在讨论的问题:组织无法制定、无法全面审查、也无法坚持自己的伦理标准。如果供应商的立场与组织自身的立场只有微小偏差,那代价不大,缓解措施足以弥补。但如果两者立场确实存在分歧,接受就意味着你运行的是一个组织可能从未选择、也不会去捍卫的标准。此时,判断的标准不再是“剩余差距够不够小”,而是“董事会能否把这个标准视为组织自己的标准”。说实话,大多数组织其实已经处于这种状态了,只是很少有人是刻意选择的。
第二种选择是拒绝。组织拒绝将AI应用于那些价值基础会直接影响人的场景,而是把它限制在模型对敏感问题的表述方式不会对客户或员工产生实质性影响的领域。比如草拟文档、编写代码、整理摘要这些功能,完全符合这个界限;但资格认定、处理投诉、一线客户判断这些场景,就超出了界限。拒绝是一种合法的治理立场,但可惜被严重低估了。如果供应商的编码立场经过董事会审查后无法被认可,那么“拒绝”就是一个诚实的答案。当然,拒绝的代价也是实实在在的:组织放弃了在最需要AI的领域中运用这项能力的机会,等于把发展速度拱手让给了愿意接受这种交换的竞争对手。
第三种方法是构建。组织自己负责对齐层。实际上,这并不意味着要从零开始训练一个前沿模型——这对几乎所有组织来说都是不可能的。它意味着在开放权重的基础模型上进行大量的对齐和微调工作,从而使价值选择反映组织自身的考量,而不是来自外部供应商的决策。“构建”确实能增强对底层模型的控制,但并不能带来“完全”的控制,因为开放权重基础模型本身就有预训练的先验信息,这些信息会一直存在于你叠加的任何层之下。“构建”的成本包括资金、稀缺的专业人才、计算资源,以及长期的维护投入,而最终得到的模型性能通常还会低于前沿模型。实际上,能做到这一点的组织,凤毛麟角。
不得不说,选择没有捷径。“接受”能最大化速度,但放弃了控制权,并要求组织信任一个无法完全审计的供应商。“构建”能最大化控制权,代价则是速度、成本和能力的损失。“拒绝”则在最需要权衡的地方降低能力,等于拒绝了这种权衡本身。实际上,完全掌控模型中的价值是不可能的;即使是“构建”,也只是增加了控制权,而不是完全控制。这就是所谓的“AI主权三难困境”——信任、速度和控制之间的结构性张力。这种张力从基础设施和管辖权层面,一路延伸到组织运行的模型的价值基础层面。和其他形式的三难困境一样,我们的任务不是去“解决”它,而是在充分了解的情况下,选择一种立场。
深思熟虑后做出的选择
这个选择并不是在组织层面“一次性”做出的,而是在每一次部署的层面“多次”做出,因为每次部署的情况都不一样。一个面向客户的资格认证模型,和一个内部的会议纪要总结模型,它们所带来的伦理问题的力度是天差地别的。对于总结员这个场景,“接受”往往是正确答案;但用于资格认证模型时,这就成了一个需要慎之又慎的更重要抉择。
因此,董事会的任务并非发布一个单一的、包罗万象的裁决,而是要确保:对于每一项实质性的人工智能部署,都有人能明确指出它属于这三种选择中的哪一种,并且这个答案是经过深思熟虑后主动做出的,而不是默认的。真正需要警惕的失败模式,不是选择了“构建”却发现成本太高,或者选择了“拒绝”却发现太慢;而是出于惯性,一味地“接受”,从未主动提出过选择。英国的公司治理准则已经要求董事会确保组织文化与其价值观相符,并在不一致之处寻求保证。无论董事会是否从这个角度审视过,已部署的模型如何对待客户和员工,如今已经成为这种文化的一部分。英国董事学会的报告《董事会中的人工智能治理》在操作层面也表达了同样的观点:它期望董事会保留暂停或撤销行为不可接受的人工智能系统的权力。
这需要一种叫“最低限度可行治理”的原则:也就是明确的问责制,加上轻量级、有规律的工作节奏,而不是设立新的委员会和新的审批流程。一个模型运行什么标准,取决于董事会对组织行为的集体责任,而不是一个可以委托出去的技术设置。董事会也不应期望这个问题上能达成完全一致,因为董事们对有争议的道德立场本来就可能有不同的看法。提出这种分歧,正是工作的意义所在,而不是失败。从最基本的层面来说,这个原则就是一个问题,一个需要针对每一项实质性部署都要问自己的问题:这是三种方案中的哪一种?我们是否主动选择了它?
永久性问题
这个问题是“无法解决”的。模型会不断涌现,它们本身就带有既定的伦理准则,而这些伦理准则也会随着模型的变化而不断漂移。这里所描述的“替代”,并不是一个可以在一个版本周期内修复的缺陷,而是AI运行的固有特性,是所谓的“大重塑”在实践中的真正含义。没有任何组织可以一劳永逸地解决这个问题。
董事会尤其不能再抱有一个幻想——认为组织的道德标准可以自动生效。事实并非如此。只有当董事会主动选择并积极维护这个标准,使其免受不断变化的环境影响时,它才能生效。如果董事会没有这么做,那么生效的标准就会是服务提供方的标准,而组织引以为傲的价值观声明,描述的就只是一种愿景,而非实际做法。
什么都不做,并不能回避选择。什么都不做,就等于选择了“接受”,接受服务提供商的条款,直到他们不再关注的那一天。一个能够针对每项部署明确做出选择,并最终选择了“接受”并辅以缓解措施的董事会,才是在进行治理。而一个从未明确做出任何选择的董事会,则是在“被治理”。董事会面临的问题,不是其AI模型是否具有伦理道德,而是——这到底是“谁”的伦理道德?
