DAPO浅析
论文地址 https://arxiv.org/abs/2503.14476参考实验:DAPO + vLLM v1 + VeRL —— VOC性能比较
Motivation
没有完整的GRPO训练R1-32B的框架
目标:
[*]降低错误样本的长度 (token-level loss)
[*]训练更加稳定 (overlong filter)
[*]避免generation entropy的塌陷(higher clip)
[*]提高训练效率(dynamic sample)
Method
整体优化目标如下
\[\mathcal{J} = \mathbb{E}_{(q,a)\sim \mathcal{D}, \{o_i\}_{i=1}^G\sim \pi_{old}(\cdot|q)} [\frac{1}{\sum_{i=1}^G|o_i|}\sum_{i=1}^G\sum_{t=1}^{|o_i|}\min(r_{i,t}(\theta)A_{i, t}, clip(r_{i,t}(\theta),1-\epsilon_{low}, 1+\epsilon_{high})A_{i,t})]\\s.t.\ 0 热心回复! 热心回复! 感谢,下载保存了 谢谢分享,试用一下 感谢发布原创作品,程序园因你更精彩 感谢分享 yyds。多谢分享 谢谢分享,辛苦了 分享、互助 让互联网精神温暖你我 鼓励转贴优秀软件安全工具和文档! 很好很强大我过来先占个楼 待编辑 这个好,看起来很实用 东西不错很实用谢谢分享 这个好,看起来很实用 用心讨论,共获提升! 新版吗?好像是停更了吧。 收藏一下 不知道什么时候能用到 新版吗?好像是停更了吧。 过来提前占个楼
页:
[1]
2