釉她
发表于 2025-6-1 20:42:08
强化学习--基于价值的强化学习(02)
Action-Value Functions 动作价值函数
折扣回报(Discounted Return)
折扣回报 Ut 是从时间步 t 开始的累积奖励,公式为:
<ul>Rt 是在时间步 t 获得的奖励。
γ 是折扣因子(0
茅香馨
发表于 2025-11-15 08:06:27
懂技术并乐意极积无私分享的人越来越少。珍惜
挠溃症
发表于 2026-1-8 15:02:03
懂技术并乐意极积无私分享的人越来越少。珍惜
溧久苟
发表于 2026-1-19 17:00:27
用心讨论,共获提升!
拼潦
发表于 2026-1-20 10:54:23
不错,里面软件多更新就更好了
边书仪
发表于 2026-1-20 14:06:58
感谢,下载保存了
忿惺噱
发表于 2026-1-21 01:21:16
热心回复!
剽达崖
发表于 2026-1-21 02:08:41
这个有用。
庇床铍
发表于 2026-1-21 16:47:28
谢谢分享,试用一下
奄蜊
发表于 2026-1-30 03:28:14
感谢,下载保存了
欤夤
发表于 2026-2-5 08:29:58
热心回复!
殳世英
发表于 2026-2-6 04:22:06
感谢分享,下载保存了,貌似很强大
痕伯
发表于 2026-2-9 12:30:51
感谢发布原创作品,程序园因你更精彩
觐有
发表于 2026-2-10 06:02:15
东西不错很实用谢谢分享
告陕无
发表于 2026-2-11 03:51:39
这个好,看起来很实用
怃膝镁
发表于 2026-2-13 10:59:15
鼓励转贴优秀软件安全工具和文档!
创蟀征
发表于 2026-2-16 03:34:31
收藏一下 不知道什么时候能用到
靳谷雪
发表于 2026-2-23 05:10:39
收藏一下 不知道什么时候能用到
懵径
发表于 2026-2-24 15:09:45
不错,里面软件多更新就更好了
缍米
发表于 2026-2-25 16:21:35
谢谢楼主提供!