釉她 发表于 2025-6-1 20:42:08

强化学习--基于价值的强化学习(02)

Action-Value Functions 动作价值函数

折扣回报(Discounted Return)

折扣回报 Ut 是从时间步 t 开始的累积奖励,公式为:

<ul>Rt 是在时间步 t 获得的奖励。

γ 是折扣因子(0

茅香馨 发表于 2025-11-15 08:06:27

懂技术并乐意极积无私分享的人越来越少。珍惜

挠溃症 发表于 2026-1-8 15:02:03

懂技术并乐意极积无私分享的人越来越少。珍惜

溧久苟 发表于 2026-1-19 17:00:27

用心讨论,共获提升!

拼潦 发表于 2026-1-20 10:54:23

不错,里面软件多更新就更好了

边书仪 发表于 2026-1-20 14:06:58

感谢,下载保存了

忿惺噱 发表于 2026-1-21 01:21:16

热心回复!

剽达崖 发表于 2026-1-21 02:08:41

这个有用。

庇床铍 发表于 2026-1-21 16:47:28

谢谢分享,试用一下

奄蜊 发表于 2026-1-30 03:28:14

感谢,下载保存了

欤夤 发表于 2026-2-5 08:29:58

热心回复!

殳世英 发表于 2026-2-6 04:22:06

感谢分享,下载保存了,貌似很强大

痕伯 发表于 2026-2-9 12:30:51

感谢发布原创作品,程序园因你更精彩

觐有 发表于 2026-2-10 06:02:15

东西不错很实用谢谢分享

告陕无 发表于 2026-2-11 03:51:39

这个好,看起来很实用

怃膝镁 发表于 2026-2-13 10:59:15

鼓励转贴优秀软件安全工具和文档!

创蟀征 发表于 2026-2-16 03:34:31

收藏一下   不知道什么时候能用到

靳谷雪 发表于 2026-2-23 05:10:39

收藏一下   不知道什么时候能用到

懵径 发表于 2026-2-24 15:09:45

不错,里面软件多更新就更好了

缍米 发表于 2026-2-25 16:21:35

谢谢楼主提供!
页: [1] 2
查看完整版本: 强化学习--基于价值的强化学习(02)