登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
签到
每天签到奖励2-10圆
导读
排行榜
TG频道
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
VIP申请
VIP网盘
网盘
联系我们
发帖说明
每日签到
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
强化学习--基于价值的强化学习(02)
强化学习--基于价值的强化学习(02)
[ 复制链接 ]
釉她
2025-6-1 20:42:08
Action-Value Functions 动作价值函数
折扣回报(Discounted Return)
折扣回报
Ut
是从时间步
t
开始的累积奖励,公式为:
<ul>Rt 是在时间步
t
获得的奖励。
γ
是折扣因子(0
强化
学习
基于
价值
相关帖子
强化学习系统性学习笔记(二):策略优化的理论基础与算法实现
数据采集传输卡:430-基于RFSOC的8路5G ADC和8路10G的DAC PCIe卡
每周读书与学习->初识JMeter 元件(四)
学习ReAct并使用langgraph实现一个简单的ReAct AI Agent!!
一生一芯学习:基础设施(2)
HTML学习日记
基于selenium的网页自动搜索
多Agent协作入门:基于A2A协议的Agent通信(下)
论文分享-ETEGRec:端到端可学习的物品分词与生成式推荐
Obsidian笔记同步:基于Cloudflare对象存储
vip免费申请,1年只需15美金$
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
强化学习系统性学习笔记(二):策略优化的理论基础与算法实现
0
499
副我
2025-10-09
业界
数据采集传输卡:430-基于RFSOC的8路5G ADC和8路10G的DAC PCIe卡
0
979
讹过畔
2025-10-09
业界
每周读书与学习->初识JMeter 元件(四)
0
440
公新蕾
2025-10-09
业界
学习ReAct并使用langgraph实现一个简单的ReAct AI Agent!!
0
34
稼布欤
2025-10-10
业界
一生一芯学习:基础设施(2)
0
353
毋峻舷
2025-10-10
安全
HTML学习日记
0
471
季卓然
2025-10-10
安全
基于selenium的网页自动搜索
0
179
姚梨素
2025-10-11
业界
多Agent协作入门:基于A2A协议的Agent通信(下)
0
915
锺冰洁
2025-10-11
业界
论文分享-ETEGRec:端到端可学习的物品分词与生成式推荐
0
426
雌鲳签
2025-10-11
安全
Obsidian笔记同步:基于Cloudflare对象存储
0
528
赖秀竹
2025-10-11
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
釉她
2025-6-1 20:42:08
关注
0
粉丝关注
15
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994888
dage888
999994
3934307807
993690
4
富账慕
10007
5
刎唇
9993
6
柴古香
9989
7
匝抽
9986
8
孙淼淼
9989
9
筒濂
9977
10
凌彦慧
9985
查看更多