强化学习Q-learning手算图解：零基础实战教程

2026-05-30阅读 0热度 0

强化学习

在强化学习算法家族中，Q-learning 是一种经典的基于价值的离线无模型算法。它无需环境模型，也不直接优化策略，而是通过迭代学习动作价值函数间接实现最优决策。以下从基础原理出发，系统梳理其工作机制。

Q-learning算法核心原理与机制

Q-learning 属于基于价值、离线无模型的强化学习算法。它不直接优化策略，而是通过维护 Q 表存储状态-动作对的价值，结合时序差分（TD）规则迭代更新。采用 ε-贪心策略平衡探索与利用，折扣因子 γ 与学习率 α 是影响收敛效果的关键超参数。算法在每一步交互后立即学习，结构简洁、实现便捷。但当状态或动作空间过大时，Q 表存储需求激增，导致维度灾难问题。

Q-learning基本架构与决策流程

Q-learning决策机制

Q-learning 通过查询动作价值函数做出决策：在状态 s1 下，比较动作 a1 与 a2 的 Q 值，选择值最高的动作执行。例如 Q(s1,a1)=-2，Q(s1,a2)=1，则选择 a2。执行后进入新状态 s2，重复查表、比较、择优的过程，直到终止状态。

Q-learning更新规则

动作的总价值由即时奖励与后续状态的折现长期收益共同决定。

估计值：当前状态下执行动作 a2 的 Q 值 Q(s1,a2)，即模型对该动作总回报的当前估计。
真实目标值：即时奖励 R 加上折扣因子 γ 乘以下一状态的最大 Q 值。γ 用于衰减远期回报，反映未来收益的不确定性。

算法超参数与决策策略：

ε-greedy 探索策略：以概率 ε 随机选择动作，以概率 1-ε 选择当前最优动作。典型设置 ε=0.9 表示 90% 贪心、10% 随机，在探索与利用间取得平衡。
学习率 alpha：取值为 (0,1)，控制单次更新中 TD 误差被纳入新估计值的比例，影响收敛速度与稳定性。
折扣因子 gamma：对未来奖励做衰减，γ 越大越重视长期收益，γ 越小越关注即时回报。