政务AI落地测评:一线答卷与未解之题
21世纪经济报道记者 王俊
“政务领域大模型建设的关键在于提升输出精度,精度要求越高,开发挑战越大。”“信息化系统一旦不好用,就等于不能用。”“所有涉及群众切身利益的审核结果,必须经过人工复核才能生效。”——这些并非空谈,而是来自北京师范大学一场政府应用人工智能法律规制研讨会上地方一线工作人员分享的真实经验。
“数字法治政府建设正步入全新阶段。在技术迭代与治理变革的双重驱动下,人工智能大模型、智能体等前沿技术为提升政府治理效能、优化公共服务体验开辟了广阔空间。”中国人民大学校长马怀德表示,这些前沿技术也对治理理念、法律制度及实践能力提出了新挑战。
在此背景下,各级地方政府积极展开探索,力求推动人工智能在政务场景中安全、可靠、高效地落地。这一过程既充满机遇,也伴随着挑战。
那么,政务领域人工智能应用部署具体面临哪些难题?各地政府机关又是如何破局的?
政务场景对错误容忍度极低——“不好用就是不能用”
我国数字政府建设已具备坚实基础。随着人工智能的普及与应用,自2025年起,各地政府掀起大模型部署热潮。
2025年10月,中央网信办、国家发改委联合印发《政务领域人工智能大模型部署应用指引》,明确提出:政务部门可围绕政务服务、社会治理、机关办公和辅助决策等共性、高频需求,因地制宜、结合实际,选择典型场景开展人工智能大模型探索应用。
不少地方政府机构负责AI部署及应用的一线人员反映,准确率与精度是AI落地最难突破、也最必须攻克的关卡。
北京市司法局相关处室负责人直指核心问题:信息化系统“不好用,就等于不能用”。通用大模型在政务领域存在专业知识局限性。具体而言,通用大模型受限于训练语料,虽擅长处理语言任务,但往往无法达到专业任务所需的输出精度。而在实际业务场景中,精准度需超过90%。他指出,政府领域大模型建设的重点不在于通用大模型的研发,而在于大模型应用的开发——围绕特定场景的业务需求,有针对性地提升大模型应用输出精度,以满足业务需要。精度要求越高,开发难度越大。
为提升AI精度并确保大模型应用开发成功率,北京市司法局在探索过程中做了技术路线的取舍,最终选用“白盒”模式下的基座模型+智能体+知识库技术路线。
这种模式前期“费专家”——需大量业务专家逐一梳理逻辑规则,投入高、见效慢。但一旦跑通,优势显著:底层基座模型便于升级替换,智能体和知识库可实现即插即用。此外,随着OpenClaw等大模型应用产品的涌现,技能固化与知识回流正从研发端延伸到应用端,极大扩展了大模型应用的前景。
民政部门同样面临应用精度难题。一位地方民政部门的信息中心负责人提到,民政政策专业性强、地域差异大。以高龄津贴为例,各县发放节点和标准不一,大模型频繁出现政策解读偏差、答非所问甚至错误答案,跨政策衔接与特殊个案的闭环纠错和责任追溯机制尚不健全。
此外,公众对AI决策黑箱可能导致的公平问题存在担忧。以救助资格审查为例,这类事项直接影响群众权益。如果算法逻辑不透明,群众难以认可AI初审结果。当前主要依赖人工反推和入户复核,难以及时发现隐性问题。
“长期来看,数据滞后与样本偏差可能导致对特殊困难群体、偏远地区群众的系统性误判,造成结构性不公平。”这位负责人指出。
应用场景“四选四不选”
在应用场景选择方面,北京市司法局相关处室负责人特别强调:选场景不必追求高大上,实用即可。
“我们总结了‘四选四不选’的方法。”他表示,需求迫切的、重复机械的、耗费人力的、可推广复用的这四类可以选;人想不明白的、人不能把关的、缺乏数据积累和专家支撑的、与统筹框架不符的这四类则不选。
以日常的信息简报为例,这项工作重复、机械且耗费大量人力,单次人工整理需要两小时,AI可压缩至十分钟,最终由人工把关即可。
吉林民政部门则从技术与制度维度构建起“三道防线”。
事前进行源头管控。首先,开展风险分级,对民政AI政务全场景进行全面风险评估,科学划定低、中、高三个风险等级,明确不同等级场景的管控标准与处置流程,从业务源头识别潜在安全隐患。其次,做好数据脱敏,对涉及公民个人身份、住址、婚姻状况等隐私信息进行不可逆变形处理,确保数据在采集、传输与使用环节的安全可控。此外,建立模型准入审核机制。
事中做好过程管控。吉林民政部门全面实行“AI智能辅助+人工专业终审”双重处理模式。AI负责信息初筛与标准化响应,人工承担最终决策责任,既提升效率又保障服务准确性。同时,全程留痕、可溯可查,并制定岗位责任清单,明确关键节点审核要求。针对高风险业务场景,实施多级复核制度,将人工审核的主体责任落实到岗、到人,杜绝违规操作。
事后落实闭环管控。定期复核,查漏补缺。建立问题台账管理机制,针对复核发现的问题制定整改方案,明确整改时限与执行人员。整改完成后开展效果验证,确保问题不解决不销号、不反弹。同时收集业务反馈与用户诉求,持续优化AI,推动迭代升级。
政府需要明确人工智能权力的边界
虽然技术手段可以推动AI精度提升,但AI落地过程中仍会“撞上”法律规则的难题。
“人工智能越在政府治理中发挥效用,就越需要被纳入法律框架。”北京师范大学法学院副教授时业伟指出。
他认为,如果人工智能已经如此深入地介入公共治理,那它必然涉及合法性、程序正当、权利救济、人类尊严保障等核心问题。反过来,政府越需要提升行政能力,就越需要明确人工智能权力的边界。
一位地方信息部门负责人建议,应推进政策问答类场景的模型准入标准,明确AI出错的纠错、追责与补救流程。她指出,现行文件仅规定了人工兜底、算力备案等大原则,但AI答复错误或审核偏差后具体如何纠错、谁来担责、如何补救,尚无统一标准。建议细化民生场景专属处置细则,区分模型幻觉与人工疏漏等不同情形,厘清政务部门与技术厂商的责任边界,建立统一的纠错补救机制。
此外,在高风险AI政务场景中,应建立常态化算法可解释性评估与伦理审查机制,引入第三方测评,形成问题整改闭环,切实防范算法歧视和服务偏差。
会上,北京师范大学法学院张红教授、王静副教授课题组发布了《政府应用人工智能技术的指南(专家建议稿)》和《政务智能体规范部署与使用的指南(专家建议稿)》,确立了安全可控、公平公正、透明可释、以人为本等基本原则。
“所有技术应用必须服务于‘人民群众对美好生活的向往’,脱离以人为本,技术价值无从谈起。”王静强调。
在机制层面,《政府应用人工智能技术的指南(专家建议稿)》按风险级别划分为常规、敏感、越界三类场景,明确划定红线。此外,指南对数据安全、人机协作和服务优化作了初步探讨,贯彻了“人类最终决定”原则。
时业伟认为,政府应用人工智能的最终目标还是要回归到人这一本体。人工智能可以提高效率,但绝不能把人简化为数据的对象;人工智能可以帮助政府辅助判断,但不能消解人的主体地位。模型再大,也大不过人民群众的真实感受。
