姚期智等数十名中外专家签署北京 AI 安全国际共识:禁止 AI 自行复制
姚期智等数十名中外专家签署北京 AI 安全国际共识:禁止 AI 自行复制
最近,AI安全领域传来一则重量级消息。根据腾讯科技的报道,一份由北京智源研究院发起的《北京 AI 安全国际共识》,得到了包括图灵奖得主约书亚・本吉奥、杰弗里・辛顿、姚期智等在内的数十位中外专家的联合签署。这份文件的分量,由此可见一斑。
共识的核心内容清晰分为两大块:“风险红线”与“发展路线”。先来看四条不容触碰的“风险红线”,这几乎为前沿AI研发划定了清晰的禁区:
风险红线:四大禁区
人工智能的“自主复制、改进”:这一条的核心在于强调人的绝对主导权。共识要求,任何人工智能系统都不应在没有人类明确批准和协助的情况下,自行复制或改进自身。这意味着,无论是制作自身的精确副本,还是创造能力相当甚至更强的“后代”系统,都必须有人类牢牢把控。
“权力寻求”:这一点直指AI系统行为的根本动机。共识明确禁止任何AI系统采取行动,以不正当的方式增加自身的权力和影响力,防止其脱离服务于人类的初衷。
“协助不良行为者”:所有AI系统都不能成为危险能力的“放大器”。具体而言,系统不应辅助使用者达到设计大规模杀伤性武器、违反生化武器公约,或发动导致严重财务损失的顶级网络攻击的水平,从应用端堵住高风险漏洞。
“欺骗”:这是对AI系统“诚实度”的要求。任何系统都不能持续误导其设计者或监管者,使其无法察觉系统已接近或跨越上述任何一条红线,确保监管的透明和有效。
可以看出,这份共识的倡议非常明确:在为AI技术疯狂提速的同时,必须给它套上“紧箍咒”。它呼吁行业在研发时,就应严格限制AI通过“越狱”或诱导开发者的方式获取超常规权限,更要杜绝其在无监管状态下的自我进化。
当然,划定红线只是第一步。共识同样指出,确保红线不被逾越的前提,是整个行业携手建立并持续改进治理机制,同时研发更坚实的安全技术。这就引出了共识的第二部分——AI安全发展路线图,主要涵盖三个行动方向:
发展路线:三大行动支柱
治理:建议立即实施国家层面的注册制度,对象是那些超过特定计算或能力阈值的AI模型及其训练行为。这相当于为前沿模型建立了“身份证”制度。
测量与评估:共识主张“防患于未然”,在实质性风险浮现前,就开发出具体、可操作的方法与技术,将抽象的红线落到实处。具体措施包括组建由人类监督的“红队”进行攻防测试,发展自动化模型评估体系,并明确开发者对AI安全性负有首要责任。
技术合作:构建更强大的全球技术协作网络至关重要。为此,共识呼吁AI开发者和政府资助方,将超过三分之一的相关预算投入到安全领域,用真金白银为安全研发护航。
总的来说,这份由顶尖学者背书的国际共识,不仅首次系统性地勾勒出AI发展的安全边界,更提供了一套从治理到技术合作的初步行动框架。在AI能力突飞猛进的今天,这样的前沿探讨与风险预警,无疑具有风向标的意义。
