RL | 如何推导 MaxEnt RL(最大熵 RL)的策略形式 π(a|s) ∝ exp(Q(s, a))
由 deepseek 生成;简单调整了格式,并且写了一点解释,使其更易读。省流:
① 我们考虑一步策略改进,即选一个新策略 \(\pi'\),使得 \(V^\text{new}(s) = r(s,\pi'(s)) + \gamma V^\pi(s,a)\) 最大。
② 做一步策略改进时,我们把选择所有 action 的概率 \(\pi (a|s)\) 当作变量,\(\sum \pi (a|s) = 1\) 当作约束条件,使用拉格朗日乘子 \(\lambda\) 干掉。
③ 把 \(\pi (a|s)\) 当作变量,对 \(V^\text{new}(s)\) 求偏导,偏导数应该全部 = 0;这一步就能得到 \(\pi (a|s) \propto\exp(Q(s, a))\) 的形式。
好的,MaxEnt RL(Maximum Entropy Reinforcement Learning)确实拥有优雅且强大的数学形式,其核心策略 \(\pi (a|s) \propto\exp(Q(s, a))\) 是理解它的关键。这个形式并非突然出现,而是基于最大化带有熵正则化的累积回报目标函数,通过严谨的数学推导得出的。现在,我们来一步步推导这个优美的数学形式:
1. 最大熵 RL 的目标函数
标准 RL 的目标是最大化期望累积奖励:\(E[\sum_t \gamma^t r_t]\)。
最大熵 RL 在标准目标上添加了策略在每个状态下的熵 \(H(\pi (·|s)) = -E_{a \sim \pi } [\log \pi (a|s)]\) 作为正则化项。目标函数变为最大化期望的熵正则化累积回报:
\\]
其中:
[*]$ρ_\pi $ 是策略 $\pi $ 诱导的状态-动作轨迹分布。
[*]\(\gamma ∈ (0, 1]\) 是折扣因子。
[*]\(\alpha > 0\) 是一个关键的温度参数(temperature parameter,也就是 SAC 里面的 \(\alpha\)),它控制着熵正则化项相对于奖励的重要性。\(\alpha\) 越大,策略的随机性(探索性)越强;\(\alpha\) 越小,策略越接近标准的确定性最优策略。
2. 定义 Soft Value Functions
为了处理包含熵的目标,我们需要重新定义价值函数:
[*]Soft Q-Function (Soft State-Action Value Function):
\\]
\(Q_\text{soft}^\pi (s, a)\) 表示在状态 \(s\) 采取动作 \(a\) 后,再按照策略 $\pi $ 行动所能获得的期望熵正则化累积回报。注意:初始动作 \(a\) 的熵不被包含在 \(Q_\text{soft}\) 中(因为动作 \(a\) 是给定的),但后续状态的熵会被包含。
[*]Soft V-Function (Soft State Value Function):
\\]
\(V_\text{soft}^\pi (s)\) 表示在状态 \(s\) 开始,按照策略 $\pi $ 行动所能获得的期望熵正则化累积回报。这里的关键在于 \(- \alpha \log \pi (a|s)\) 项。回忆一下,策略的熵 \(H(\pi (·|s)) = -E_{a \sim \pi } [\log \pi (a|s)]\)。因此:
\ + \alpha H(\pi (·|s))\]
这正是从状态 \(s\) 开始的期望未来奖励加上未来所有熵的期望(乘以 \(\alpha\))。
3. Soft Bellman Equation
$Q_\text{soft}^\pi $ 和 $V_\text{soft}^\pi $ 之间满足一个 Soft 版本的贝尔曼方程:
\\]
证明:
\[\begin{aligned}Q_\text{soft}^\pi (s, a) & = E_{(s_t, a_t) \sim ρ_\pi| s_0=s, a_0=a} \Big[ r(s_0, a_0) + \sum_{t=1}^∞ \gamma^t \Big( r(s_t, a_t) + \alpha H(\pi (·|s_t)) \Big) \Big] \\& = r(s, a) + E_{s' \sim p(·|s, a)} \Big[ \gamma E_{(s_t, a_t) \sim ρ_\pi| s_0=s'} \Big[ \sum_{t=0}^∞ \gamma^t \Big( r(s_t, a_t) + \alpha H(\pi (·|s_t)) \Big) \Big] \Big]\\& \quad \quad \quad // \; 将求和拆出第一项,剩余项从 s' 开始 \\& = r(s, a) + \gamma E_{s' \sim p(·|s, a)} [ V_\text{soft}^\pi (s') ] \\& \quad \quad \quad // \; 根据 V_\text{soft}^\pi (s') 的定义 \\\end{aligned}\]
4. 策略优化:推导最优策略形式
这是最核心的一步。我们的目标是找到最优策略 \(\pi^*\) 来最大化目标函数 \(J(\pi )\)。我们考虑在某个状态 \(s\) 下,如何改进策略 $\pi $ 使得 \(V_\text{soft}^\pi (s)\) 增大(因为 \(V_\text{soft}\) 直接衡量了从状态 \(s\) 开始的 \(J(\pi )\))。
我们定义一个更优的(或最优的)策略 \(\pi _\text{new}\),它在状态 \(s\) 下选择动作的方式可能与 $\pi $ 不同。我们希望 \(\pi _\text{new}\) 在 \(s\) 处的价值 \(V_\text{soft}^{\pi _\text{new}}(s)\) 大于或等于 \(V_\text{soft}^\pi (s)\)。
将 \(V_\text{soft}^{\pi _\text{new}}(s)\) 用 \(Q_\text{soft}^\pi (s, a)\) 表示(注意这里用的是 旧策略 $\pi $ 的 $Q_\text{soft}^\pi $,因为我们是在评估在 \(s\) 处单步改变策略的效果):
\\]
我们的目标是最大化 \(V_\text{soft}^{\pi _\text{new}}(s)\)。这是一个带约束的优化问题:\(\pi _\text{new}(·|s)\) 必须是一个有效的概率分布(即 \(\sum_a \pi _\text{new}(a|s) = 1\), \(\pi _\text{new}(a|s) >= 0\))。
使用拉格朗日乘子法:
引入拉格朗日乘子 \(λ\) 来处理概率和为 1 的约束。
\ + λ \Big(1 - \sum_a \pi _\text{new}(a|s)\Big)\]
为了找到 \(L\) 关于 \(\pi _\text{new}(a|s)\) 的极值,对每个动作 \(a\) 求偏导并令其为零:
\[∂L / ∂\pi _\text{new}(a|s) = Q_\text{soft}^\pi (s, a) - \alpha (\log \pi _\text{new}(a|s) + 1) - λ = 0\]
解出 \(\pi _\text{new}(a|s)\):
\[\begin{aligned}& \; Q_\text{soft}^\pi (s, a) - \alpha \log\pi _\text{new}(a|s) - \alpha - λ = 0 \\\Rightarrow & \; \alpha \log\pi _\text{new}(a|s) = Q_\text{soft}^\pi (s, a) - \alpha - λ \\\Rightarrow & \; \log\pi _\text{new}(a|s) = (Q_\text{soft}^\pi (s, a) - \alpha - λ) / \alpha \\\Rightarrow & \; \log\pi _\text{new}(a|s) = Q_\text{soft}^\pi (s, a)/\alpha - 1 - λ/\alpha \\\Rightarrow & \; \pi _\text{new}(a|s) = \exp( Q_\text{soft}^\pi (s, a)/\alpha - 1 - λ/\alpha ) \\\end{aligned}\]
归一化得到概率分布:
因为 \(\pi _\text{new}(a|s)\) 必须对所有 \(a\) 求和为 1,我们可以将上式写成:
\[\pi _\text{new}(a|s) = \exp( Q_\text{soft}^\pi (s, a)/\alpha ) \Big/ \exp(1 + λ/\alpha)\]
令 \(Z(s) = \exp(1 + λ/\alpha)\),这是一个只依赖于状态 \(s\) 的归一化常数(Partition Function)。于是:
\[\pi _\text{new}(a|s) = \frac1{Z(s)} \exp( Q_\text{soft}^\pi (s, a)/\alpha )\]
或者更简洁地:
\[\pi _\text{new}(a|s) \propto\exp( Q_\text{soft}^\pi (s, a)/\alpha )\]
5. 结论与含义
[*]我们推导出,为了在状态 \(s\) 改进策略以最大化 \(V_\text{soft}\)(即熵正则化目标),新的策略 \(\pi _\text{new}\) 应该满足:
\[\pi _{new}^*(a|s) = \frac{ \exp( Q_\text{soft}^\pi (s, a) / \alpha ) }{ \sum_{a'} \exp( Q_\text{soft}^\pi (s, a') / \alpha ) } = \frac{ \exp( Q_\text{soft}^\pi (s, a) / \alpha ) }{ Z(s) }\]
即 策略选择一个动作的概率正比于 \(\exp(Q_\text{soft}(s, a) / \alpha)\)。这就是你看到的那个优美形式。
[*]\(\alpha\) 的作用: 温度参数 \(\alpha\) 扮演着至关重要的角色:
[*]\(\alpha\) 控制着探索-利用的权衡:\(\alpha\) 越大,\(\exp(Q_\text{soft}/\alpha)\) 对 \(Q_\text{soft}\) 值差异越不敏感,策略越接近均匀分布(高熵,高探索)。\(\alpha\) 越小,\(\exp(Q_\text{soft}/\alpha)\) 对高 \(Q_\text{soft}\) 值的动作赋予越高的概率,策略越接近确定性(低熵,高利用)。
[*]在公式中,\(\alpha\) 作为 \(Q_\text{soft}\) 的缩放因子出现。
[*]最优策略的性质: 当策略 $\pi $ 达到最优 \(\pi^ *\) 时,我们期望 \(\pi _\text{new}\) 就是 \(\pi^ *\) 本身(或与之等价)。这时,上面的关系式在最优的 \(Q_\text{soft}^*\) 和 \(\pi^ *\) 之间成立:
\[\pi ^*(a|s) \propto\exp( Q_\text{soft}^*(s, a)/\alpha )\]
[*]与 Soft Value 的关系: 将最优策略形式代回 \(V_\text{soft}^\pi (s)\) 的定义:
\[\begin{aligned}V_\text{soft}^*(s) & = E_{a \sim \pi ^*} [ Q_\text{soft}^*(s, a) - \alpha log \pi ^*(a|s) ] \\ & = E_{a \sim \pi ^*} [ Q_\text{soft}^*(s, a) - \alpha ( \log(\exp(Q_\text{soft}^*(s, a)/\alpha) / Z(s)) ) ] \quad\quad // \; 代入 \pi ^* \\ & = E_{a \sim \pi ^*} [ Q_\text{soft}^*(s, a) - ( Q_\text{soft}^*(s, a) - \alpha \log Z(s) ) ] \quad\quad // \; \log\exp(x) = x, \log(1/Z) = -\log Z \\ & = E_{a \sim \pi ^*} [ \alpha \log Z(s) ] \\ & = \alpha \log Z(s)\quad\quad // \; 因为 Z(s) 只依赖于 s \\\end{aligned}\]
因此,最优 Soft 状态价值 \(V_\text{soft}^*(s)\) 等于 \(\alpha\) 乘以对数归一化常数 \(\log Z(s)\)。这也揭示了 \(Z(s)\) 的物理意义:\(\log Z(s) = V_\text{soft}^*(s) / \alpha\),它是缩放后的最优价值。
总结:
MaxEnt RL 的核心策略形式 \(\pi (a|s) \propto\exp(Q(s, a)/\alpha)\) 是通过 最大化带有熵正则化项的目标函数 \(J(\pi )\),并在策略改进步骤中求解一个带约束(概率分布)的优化问题(使用拉格朗日乘子法)而自然推导出来的。这个形式不仅数学优美,其内涵也极其深刻:
[*]自动权衡探索与利用: 熵项 \(H(\pi )\) 直接鼓励探索,而 \(\alpha\) 显式地控制着探索的强度。
[*]鲁棒性: 策略不会完全丢弃次优动作,对奖励函数建模的误差或环境动态的不确定性更鲁棒。
[*]兼容性: 该形式天然适用于随机策略和连续动作空间。
[*]理论优雅: 策略直接由能量函数 \((-Q_\text{soft}(s, a)/\alpha)\) 通过玻尔兹曼分布给出,与统计物理联系紧密。
理解这个推导过程是深入掌握 MaxEnt RL(尤其是 SAC 算法)的关键基础。希望这个详细的推导对你有帮助!
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
页:
[1]