国产大模型辩论图灵测试通过！AI辩手深度评测

2026-06-22阅读 0热度 0

人工智能

设想这个场景：巨型屏幕上，两位辩手相貌、着装完全相同，正围绕一个涉及情感、伦理与哲学层面的议题展开交锋——“假设一键就能删除所有痛苦记忆，你会按下按钮吗？”一方是真人陈铭，武汉大学教师；另一方则是AI陈铭，由上海稀宇科技（MiniMax）的大模型驱动生成。

在2025年7月26日举办的“2025中国·AI盛典”辩论赛赛后投票中，42%的现场观众将AI误判为人类。这一比例直接意味着：该大模型在人机辩论场景下成功通过了图灵测试。

图灵测试这一经典基准，由“人工智能之父”图灵于1950年提出：若一台机器能在自然语言对话中“迷惑”超过30%的人类参与者，即可视为具备智能。此次，国产大模型以辩论赛为载体，交出了42%得票率的答卷。

这一突破不仅标志着我国在AI自然语言理解与逻辑推理能力上取得了显著进展，也再次验证了上海作为全球AI创新高地的技术实力。据科技日报记者了解，这位“辩手”背后的文本大模型学习了万亿条人类语料，而语音大模型仅需6秒声音样本即可合成高度逼真的人声。辩论环节的影像由节目组统一采用AI技术处理，确保100位现场观众仅能依据辩论内容、语言风格及思维逻辑来判断谁是人类。

现场AI陈铭的表现亮点频现。例如构建论点时，面对“人工智能是否应拥有法律人格”这类辩题，它能快速检索法律条文与伦理案例，搭建起多层次的论证结构；临场应变环节，面对人类辩手的即兴追问，它能在半秒内生成反驳话术——比如讨论“技术失业”时，直接引用制造业自动化数据，提出“岗位结构转型”这一新颖角度；情感渲染方面，通过语音合成技术模拟语气起伏，在“教育公平”辩论中用富有感染力的叙述引发观众共鸣。

赛后，多次斩获国际辩论赛冠军的陈铭在社交媒体分享感受：“辩论几乎是检验推理能力成熟度的最佳试金石。以我亲身经历而言，经过针对性训练的推理大模型，辩论能力已超越90%的人类辩手。观点、逻辑、金句，加上极具感染力的输出，AI流畅无比、信手拈来。在语言技术层面，人类几乎已无自留地。”不过他也指出，AI尚未臻于完美，“最后的荣耀，仍属于那些在‘大’问题上的深度思考。对于根本性哲学视角的突破，AI依然力有未逮。”

上海交通大学人工智能学院院长李颉认为，该模型在辩论场景的突破，为政务咨询、金融谈判等高强度交互领域提供了全新范式。目前MiniMax已与复旦大学合作，将相关技术用于科技伦理审查智能体系统“一鉴”，实现伦理风险的自动标注与合规性分析。

这场图灵测试的意义早已超越简单的“辨别人机”。中国工程院院士、之江实验室主任王坚表示：“当年的图灵测试为人工智能设定了一个极具挑战的目标。今天我们看到，通过图灵测试只是人工智能下一个新阶段的开始。”

国产大模型辩论图灵测试通过！AI辩手深度评测

相关阅读

最新教程

最新资讯