国产大模型辩论图灵测试通过!AI辩手深度评测
设想这个场景:巨型屏幕上,两位辩手相貌、着装完全相同,正围绕一个涉及情感、伦理与哲学层面的议题展开交锋——“假设一键就能删除所有痛苦记忆,你会按下按钮吗?”一方是真人陈铭,武汉大学教师;另一方则是AI陈铭,由上海稀宇科技(MiniMax)的大模型驱动生成。
在2025年7月26日举办的“2025中国·AI盛典”辩论赛赛后投票中,42%的现场观众将AI误判为人类。这一比例直接意味着:该大模型在人机辩论场景下成功通过了图灵测试。
图灵测试这一经典基准,由“人工智能之父”图灵于1950年提出:若一台机器能在自然语言对话中“迷惑”超过30%的人类参与者,即可视为具备智能。此次,国产大模型以辩论赛为载体,交出了42%得票率的答卷。
这一突破不仅标志着我国在AI自然语言理解与逻辑推理能力上取得了显著进展,也再次验证了上海作为全球AI创新高地的技术实力。据科技日报记者了解,这位“辩手”背后的文本大模型学习了万亿条人类语料,而语音大模型仅需6秒声音样本即可合成高度逼真的人声。辩论环节的影像由节目组统一采用AI技术处理,确保100位现场观众仅能依据辩论内容、语言风格及思维逻辑来判断谁是人类。
现场AI陈铭的表现亮点频现。例如构建论点时,面对“人工智能是否应拥有法律人格”这类辩题,它能快速检索法律条文与伦理案例,搭建起多层次的论证结构;临场应变环节,面对人类辩手的即兴追问,它能在半秒内生成反驳话术——比如讨论“技术失业”时,直接引用制造业自动化数据,提出“岗位结构转型”这一新颖角度;情感渲染方面,通过语音合成技术模拟语气起伏,在“教育公平”辩论中用富有感染力的叙述引发观众共鸣。
赛后,多次斩获国际辩论赛冠军的陈铭在社交媒体分享感受:“辩论几乎是检验推理能力成熟度的最佳试金石。以我亲身经历而言,经过针对性训练的推理大模型,辩论能力已超越90%的人类辩手。观点、逻辑、金句,加上极具感染力的输出,AI流畅无比、信手拈来。在语言技术层面,人类几乎已无自留地。”不过他也指出,AI尚未臻于完美,“最后的荣耀,仍属于那些在‘大’问题上的深度思考。对于根本性哲学视角的突破,AI依然力有未逮。”
上海交通大学人工智能学院院长李颉认为,该模型在辩论场景的突破,为政务咨询、金融谈判等高强度交互领域提供了全新范式。目前MiniMax已与复旦大学合作,将相关技术用于科技伦理审查智能体系统“一鉴”,实现伦理风险的自动标注与合规性分析。
这场图灵测试的意义早已超越简单的“辨别人机”。中国工程院院士、之江实验室主任王坚表示:“当年的图灵测试为人工智能设定了一个极具挑战的目标。今天我们看到,通过图灵测试只是人工智能下一个新阶段的开始。”