登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
LLM | 项目推荐:LLM 后训练 / Agent 相关的小规模开源 ...
LLM | 项目推荐:LLM 后训练 / Agent 相关的小规模开源项目
[ 复制链接 ]
奄蜊
5 小时前
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
以下项目均开源在 GitHub,主题与 LLM 后训练 / LLM 应用 / Agent 的最新进展相关。
经初步调研,均可以使用 8 卡 A100 复现。
目录
项目列表
Agent-R1 和 Claw-R1
RAGEN
TinyZero
SWE-agent
Search-R1
其他项目的信息
项目列表
EasyR1:https://github.com/hiyouga/EasyR1
RAGEN:https://github.com/mll-lab-nu/RAGEN
Search-R1:https://github.com/PeterGriffinJin/Search-R1
TinyZero:https://github.com/Jiayi-Pan/TinyZero
Agent-R1:https://github.com/AgentR1/Agent-R1
Claw-R1:https://github.com/AgentR1/Claw-R1
verl-tool:https://github.com/TIGER-AI-Lab/verl-tool
verl-agent:https://github.com/langfengq/verl-agent
rllm:https://github.com/rllm-org/rllm
LightRAG:https://github.com/HKUDS/LightRAG
SWE-agent:https://github.com/SWE-agent/SWE-agent
SeeClick:https://github.com/njucckevin/SeeClick
Agent-R1 和 Claw-R1
Agent-R1 和 Claw-R1 是中科大同一个团队开源的项目,非常新,分别是 26 年 2 月和 3 月发布的,star 已经达到 1.3k,并且还在持续维护中。
Agent-R1 关注 LLM 与外部环境的 multi-turn 交互,(个人理解)感觉这个能力对 agent 来说是必要的。具体算法还没读。
复现 Agent-R1,使用 verl 的 conda 环境 就可以了,不需要装其他包。(不过现在我跑的好像有些 bug,正在 debug)
Claw-R1 的故事好像是:Agent-R1 已经提供了 agent RL 训练的框架了,而 Claw-R1 可以为 agent RL 训练收集各个环境的数据,是一种“middleware”;具体还没仔细 check。
RAGEN
先前读过 ragen 这个工作,参考博客:CSDN | RAGEN 与 StarPO 框架:如何让 LLM 在多轮交互中自我进化?
ragen 也关注 multi-turn RL,是一个提供了 1. 几个 multi-turn 环境 2. StarPO 算法实现的框架。一个师兄好像跑过 ragen,证明这个框架是能跑的。
不过印象里,ragen 里面提供的环境都比较 toy,类似于 grid world 推箱子这种,所以目前对这个项目兴趣不大。
TinyZero
TinyZero 旨在使用最少的计算资源(1-4 张 24GB GPU)、最小的模型(1.5B),复现 deepseek-r1 的 aha moment。这个项目证明了,即使是 1.5B 参数的小模型,通过 RL 也能自发产生自我验证和搜索能力。
据初步调研,这个项目的复现难度是最低的。
不过,目前这个项目已经不维护(archive)了,项目作者建议使用 verl 官方库来进行复现。
SWE-agent
SWE-agent 是一个非常有名的项目,关注 code agent 或 cli agent,希望能让 agent 自动修 GitHub 里的 issue。据调研,mini-SWE-agent 可能是一个更适合复现、更轻量级的版本。
并且,SWE-agent 貌似不强制使用本地大模型,而是可以用 API。
具体还没 check。
Search-R1
据调研,search-r1 是 OpenAI DeepResearch 的开源替代思路,训练模型学会 deep research,学会何时搜索、如何推理。
这个我也很感兴趣,但还没 check。
其他项目的信息
EasyR1:
这个项目的作者是 llamafactory 的作者,这是一个轻量级多模态 RL 的框架。不过目前我不太关注多模态,希望优先关注 agent。
rllm:
伯克利 Sky Computing Lab 开源的通用 Agent RL 训练框架,核心理念是让任何 Agent 框架(如 LangGraph SmolAgent)只需极少代码修改就能接入 RL 训练。
这听起来像是 agent 领域的 verl;但我还不太了解这些 agent 框架…
LightRAG:
有完整 WebUI 和多种存储后端(Neo4j, MongoDB 等),既支持经典 vector RAG,又集成知识图谱(Graph storage)。不过目前我不太关注 RAG,更优先希望了解 agent 核心技术流。
verl-tool:
似乎是 verl 的子模块,专注工具调用场景的 RL 训练,支持异步多轮 rollout。
verl-agent:
针对长序列 Agent 任务(如 ALFWorld 需 50 步)设计的 RL 框架。提出了 GiGPO (Group-in-Group Policy Optimization) 算法和分布独立的 Rollout。
GiGPO 先前也读过:CSDN | GiGPO:为 LLM 智能体注入细粒度信用分配,突破长视野决策瓶颈
SeeClick:
是一个 视觉 GUI 点击的 agent 项目。
更多细节暂时还没 check,后面会继续 check 的。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
LLM
项目推荐
训练
Agent
相关
相关帖子
Rudist 0.4.3 发布:让 AI Agent 替你操作 Redis
Rudist 0.4.3 发布:让 AI Agent 替你操作 Redis
Agent构建:声明式优于硬编码
AI Agent 开发实战:用LangChain4j构建你的第一个Java智能体
分布式智能体|A2A Agent实战
Agent Skills | Spring Ai Alibaba从零构建可扩展 AI 智能体
Agent Skills | Spring Ai Alibaba从零构建可扩展 AI 智能体
Agent Skills | Spring Ai Alibaba从零构建可扩展 AI 智能体
Agent Skills | Spring Ai Alibaba从零构建可扩展 AI 智能体
分布式智能体|A2A Agent实战
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
Rudist 0.4.3 发布:让 AI Agent 替你操作 Redis
0
541
邰怀卉
2026-04-01
业界
Rudist 0.4.3 发布:让 AI Agent 替你操作 Redis
0
575
痕厄
2026-04-01
业界
Agent构建:声明式优于硬编码
0
34
遑盲
2026-04-01
安全
AI Agent 开发实战:用LangChain4j构建你的第一个Java智能体
0
698
咚獭
2026-04-01
业界
分布式智能体|A2A Agent实战
0
1
膏包
2026-04-02
安全
Agent Skills | Spring Ai Alibaba从零构建可扩展 AI 智能体
0
3
劝匠注
2026-04-02
安全
Agent Skills | Spring Ai Alibaba从零构建可扩展 AI 智能体
0
3
东郭欣然
2026-04-02
安全
Agent Skills | Spring Ai Alibaba从零构建可扩展 AI 智能体
0
5
劳怡月
2026-04-02
安全
Agent Skills | Spring Ai Alibaba从零构建可扩展 AI 智能体
0
728
颖顿庐
2026-04-02
业界
分布式智能体|A2A Agent实战
0
790
敛饺乖
2026-04-02
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
奄蜊
5 小时前
关注
0
粉丝关注
26
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991125
anyue1937
9994892
kk14977
6845359
4
xiangqian
638210
5
神泱
9539
6
韶又彤
9913
7
宋子
9879
8
荪俗
9038
9
蓬森莉
9873
10
二艰糖
9530
查看更多
今日好文热榜
688
2026 CISCNx长城杯半决赛复盘
898
【开源】《clip》翻译功能怎么用?复制一下
281
[SDR] OFDM RX 详解
665
手撕 Transformer (2):嵌入层和位置编码的
493
【转载】解决 OpenClaw 2026.3.31 版本 exe
673
祝贺 Apache SeaTunnel PMC 新成员张圣航!
669
2026年AI金融工具排行榜:深度测评7款工具
279
实验室服务器远程访问终极方案:SSH 反向隧
90
25.Acwing基础课第829题-简单-模拟队列
789
分布式智能体|A2A Agent实战
632
超大型AI智能体集群锁定机制及解锁方式探讨
715
2026西安旧房翻新哪家强?西安旧房翻新这份
994
pg_auto_failover 配置参数
480
2026西安旧房翻新哪家强?西安旧房翻新这份
584
2026西安旧房翻新哪家强?西安旧房翻新这份
199
2026西安旧房翻新哪家强?西安旧房翻新这份
5
2026西安旧房翻新哪家强?西安旧房翻新这份
6
钓鱼邮件分析与排查
431
2026西安旧房翻新哪家强?西安旧房翻新这份
490
2026西安旧房翻新哪家强?西安旧房翻新这份