DeepMind最新突破:AlphaZero黑箱机制深度解析与算法演进
国际象棋长久以来被视为衡量人工智能发展的关键标尺。早在七十年前,艾伦·图灵便提出了一个开创性构想:能否创造一台能够自主学习、并通过经验持续进化的下棋机器?从依赖专家知识编码、首次战胜人类冠军的“深蓝”,到2017年凭借自我博弈崛起的AlphaZero,图灵的愿景最终由一个基于神经网络的强化学习系统实现。
AlphaZero的核心突破在于其训练范式:它摒弃了任何人为预设的启发式规则,也无需参考人类棋谱,仅通过海量自我对弈实现迭代与进化。
这引发了一个根本性追问:在这种“从零开始”的自我进化中,AlphaZero是否真正内化了人类棋手所认知的那些国际象棋核心概念?这一问题直接触及了神经网络可解释性的核心。
近期,AlphaZero的创造者Demis Hassabis及其DeepMind团队与谷歌大脑的研究人员合作,在《美国国家科学院院刊》(PNAS)上发表的研究给出了肯定结论。他们不仅在AlphaZero的神经网络中定位了人类象棋概念的明确证据,更精确描绘了这些概念在训练过程中被习得的时间点与网络层位置,甚至揭示了AlphaZero形成的独特棋风。
AlphaZero在训练中习得人类象棋概念
AlphaZero的网络架构以残差网络(ResNet)为骨干,并配备独立的策略头与价值头。其训练始于参数随机初始化的神经网络,通过循环往复的自我对弈、棋局评估,并利用生成的数据持续更新网络权重。
为探究AlphaZero的网络表征在多大程度上映射了人类棋手的思维模式,研究团队采用了“稀疏线性探测”方法。其本质是将网络参数在训练中的动态变化,关联到人类可理解的概念演变上。
具体实施分为两步。首先,研究人员将人类象棋知识“编译”为一系列可计算函数,即“概念标签”。例如,“我方是否拥有主教”是一个基础概念。更复杂的如“棋子机动性”,则需要编写函数来量化并对比双方棋子的可移动范围得分。
随后,他们利用ChessBase数据集中的大量真实棋局作为样本,在AlphaZero网络不同层的激活值上,训练一个稀疏回归“探针”,用以预测特定概念的值。通过对比不同训练阶段、不同网络层中探针的预测精度,便能绘制出一幅“概念学习图谱”,清晰展示“何种概念”、“于何时”、“在何处”被网络掌握。如图2所示。
图1:在AlphaZero网络(蓝色)中探索人类编码的国际象棋概念。
例如,可以用一个函数来确定我方或地方是否有“主教” (♗) :
图2:从A到B的概念分别是“对总分的评估”、“我方被将军了吗”、“对威胁的评估”、“我方能吃掉敌方的皇后吗”、“敌方这一步棋会将死我方吗”、“对子力分数的评估”、“子力分数”、“我方有王城兵吗”。
分析这些“概念学习图谱”揭示了几个关键模式。首先,众多概念的学习轨迹呈现高度一致性:在训练约3.2万步之前,网络各层对概念的编码精度普遍较低;此后,精度随网络深度迅速提升并趋于稳定。这表明,与概念相关的核心计算主要发生在网络的相对浅层,更深层的残差块可能更专注于落子决策或计算其他未明确定义的特征。
其次,随着训练推进,大量人类定义的概念都能以高精度从AlphaZero的表征中预测出来。但不同概念的掌握时机存在差异。像“子力价值”和“空间控制”这类基础概念,在训练2千步时已初现端倪;而更复杂的“王的安全”、“威胁评估”、“机动性”等概念,则需到8千步后才开始被显著捕捉,并在3.2万步后实现实质性增长。这与图2中显示的精度的“陡升”拐点相吻合。
一个值得注意的现象是,多数概念的探测精度在经历初期快速增长后,会进入平台期甚至轻微回落。这暗示,现有探测方法可能仅触及了网络所学知识的表层,要理解更深层的表征,或许需要开发更先进的探测技术。
AlphaZero的开局策略与人类迥异
在证实AlphaZero能够内化人类概念后,研究人员进一步追问:它对战术的理解,尤其是开局选择,是否与人类棋手一致?开局偏好深刻反映了一位棋手对棋盘局势背后多重概念的权衡与评估。
答案是否定的。研究发现,AlphaZero与人类在开局策略的演化路径上截然不同。
回顾人类国际象棋发展史,开局偏好是不断拓宽与丰富的。早期棋手普遍倾向于第一步走王前兵(e4),随后才逐渐发展出更多样化、更均衡的开局体系。然而,AlphaZero的演化路径恰恰相反:在训练初期,它对所有合法第一步的评估相对平均;随着训练深入,其选择范围却逐渐收窄,表现出对后前兵(d4)等特定走法的显著偏好。
图3:随着训练步骤和时间的推移,AlphaZero和人类对第一步的偏好比较。
这种差异的根源尚未完全明晰,但很可能源于人类集体智慧与机器自我探索的本质不同。人类棋谱库凝聚了历代大师的经验结晶,而AlphaZero的训练数据则混合了从初级到高级的自我对弈棋局,且其训练过程为鼓励探索而引入了大量随机性。
更有趣的是,即便在AlphaZero内部,不同训练周期产生的模型,其开局偏好也并非固定不变,而是呈现出丰富的多样性。以经典的“西班牙开局”为例,AlphaZero在早期训练中会遵循人类常见的应对序列(1.e4 e5, 2.Nf3 Nc6, 3.Bb5)。但在不同的训练运行中,它会逐渐收敛到两种不同的偏好上:3...a6 或 3...f6。并且,这种偏好早在训练初期就已确立。
这强有力地证明,在国际象棋这个复杂的策略空间中,通往胜利的路径是多元的。多样性不仅存在于人机之间,也存在于人工智能模型内部的不同“进化分支”中。
AlphaZero掌握知识的过程
那么,AlphaZero对开局策略的探索,与其对核心概念的掌握过程有何关联?研究发现,两者在时间线上存在清晰的对应关系。
在许多概念的“学习图谱”中,可以观察到一个明显的性能拐点,而这个拐点出现的时间段,正好与开局偏好发生显著演变的时间段重叠。特别是“子力价值”和“机动性”这两个概念,它们似乎直接驱动了开局策略的演变。
“子力价值”的概念主要在训练1万到3万步之间被掌握,而“棋子机动性”的概念则在同期逐步整合到网络的价值头中。合乎逻辑的是,对棋子基础价值的理解应先于对棋子灵活性的评估。随后,AlphaZero将这套整合后的评估体系应用于开局选择,其偏好在大约2.5万到6万训练步之间趋于稳定。
基于这些发现,研究人员勾勒出AlphaZero知识演进的三个阶段:首先是发现并内化基本的“子力价值”;随后进入一个短暂的知识爆发期,快速吸收如“机动性”等相关高阶概念;最后是一个漫长的精炼阶段,神经网络的开局策略在数十万步的训练中持续微调与优化。值得注意的是,虽然整体学习周期漫长,但某些基础能力会在相对短暂的时间窗口内“涌现”式地快速掌握。
这一结论甚至得到了前国际象棋世界冠军弗拉基米尔·克拉姆尼克的认同,他的实战观察与上述学习过程不谋而合。
结语
这项研究提供了有力证据,表明AlphaZero通过纯粹自我对弈学到的棋盘表征,能够重建大量人类国际象棋概念,并清晰揭示了这些知识在网络中的时空分布规律。同时,它也展现了与人类棋手不同的风格偏好与进化路径。
这项研究也自然引出了下一个更深层的议题:既然我们能够以人类概念为“探针”来解析神经网络,那么,神经网络是否也能发现并掌握超越人类现有知识范畴的全新概念与制胜策略?这或许是通向更通用、更强大人工智能的关键一步。
