找回密码
 立即注册
首页 业界区 科技 AI手机之深入浅出ADAGRPO三大核心策略

AI手机之深入浅出ADAGRPO三大核心策略

酒跚骼 3 天前
<h2>AI手机之深入浅出ADAGRPO三大核心略</h2><p>
<img width="1125" height="617" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135221661-1049866121.png" border="0">
</p><h2>为何训练“手机AI助手”如此困难?</h2><p><font size="3">      随着视觉语言模型的飞速发展,能够自主操作手机图形用户界面(GUI)的通用智能体——也就是我们常说的“手机AI助手”——的前景变得日益广阔。想象一下,未来你只需用一句话,AI就能帮你完成打开App、预订酒店、设置日历提醒等一系列复杂操作。然而,要将这个愿景变为现实,研究人员在使用强化学习(RL)训练这类智能体时,必须克服几座技术大山。</font></p><p><font size="3">具体来说,训练一个高效的手机AI助手面临三大核心挑战:</font></p><p><font size="3">• <b>稀疏的积极信号 (Sparse positive signals):</b> 在多步骤任务中,智能体往往只有在最终成功完成所有操作后才能获得一个“成功”的奖励。在漫长的探索过程中,它得不到任何即时的反馈或指导,这就像在一个没有路标的巨大迷宫中寻找出口,极大地降低了学习效率。</font></p><p><font size="3">• <b>任务难度差异巨大 (Large and unstable task difficulty spectrum):</b> 手机上的任务难度分布极其不均。有些任务非常简单,智能体尝试几次就能成功;而另一些任务则可能对当前的模型来说是“不可能完成的”。如果采用朴素的训练方法,模型会在这些无法解决的“死胡同”任务上反复尝试,白白浪费大量的计算资源。</font></p><p><font size="3">• <b>高昂的采样成本 (Inefficiency of large-scale environment sampling):</b> 在手机模拟器中让AI进行一次完整的尝试(即一次“采样”),是一个既耗时又消耗计算资源的过程。低下的采样效率严重制约了在线强化学习的规模和速度。</font></p><p>
<img width="1122" height="608" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135223749-1958201614.png" border="0">
</p><p><font size="3">为了系统性地解决这些挑战,研究人员设计了难度自适应群组相对策略优化算法<b> (Difficulty-ADAptive GRPO, ADAGRPO)</b>。它并非凭空创造,而是对一个名为群组相对策略优化(GRPO)的现有方法进行了重要增强,通过引入三个新颖的、能够自适应任务难度的策略,让AI的训练过程变得更加智能和高效。</font></p><p>
<img width="1142" height="630" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135225532-1619364665.png" border="0">
</p><p><font size="3">本文档的目的,就是逐一拆解ADAGRPO算法的三个关键策略——<b>SPA</b>、<b>AdaPR</b>和<b>FCF</b>,通过图文并茂的方式,帮助你清晰地理解它们各自的原理,以及它们如何协同工作,最终炼成一个更强大的手机AI助手。</font></p><p><font size="3">那么,ADAGRPO是如何巧妙应对这些挑战的呢?让我们首先来看它如何定义“成功”的价值——最短路径奖励调整(SPA)策略。</font></p><h2>一. 最短路径奖励调整 (SPA) —— 教会AI“走捷径”,追求高效</h2><p><font size="3">要解决的问题</font></p><p>
<img width="1135" height="594" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135227429-1074273574.png" border="0">
</p><p><font size="3">在强化学习中,一个常见的做法是给所有成功的尝试打上相同的分数(例如,奖励=1)。但这会带来一个隐蔽的问题,即“奖励偏见”。如果完成同一个任务有两条路径,一条需要5步,另一条需要15步,它们都成功了,也都获得了相同的奖励。模型在学习时,会更倾向于那条15步的路径,因为它贡献了更多的梯度更新项。这种倾向不仅效率低下,更<b>不符合用户对简洁、高效操作的期望</b>。</font></p><p><font size="3">工作原理</font></p><p>
<img width="1152" height="573" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135229150-1185283692.png" border="0">
</p><p><font size="3"><b>最短路径奖励调整 (Short-Path Reward Adjustment, SPA)</b> 的核心思想非常直观:它不仅仅奖励“成功”,更奖励“高效的成功”。</font></p><p><font size="3">SPA通过一种动态的奖励调整机制,以当前训练批次中最短的成功路径为基准,对其他较长的成功路径进行适度的“惩罚”。这样一来,更短、更直接的成功路径就能获得相对更高的奖励值,从而引导模型学习最高效的解决方案。</font></p><p>
<img width="1139" height="617" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135233000-742873480.png" border="0">
</p><p><font size="3">该策略的奖励计算公式如下: <code>RSPA(st, at) = r(τi) * (1 - α * (Ti - Tmin) / Ti)</code></font></p><p><font size="3">• <code>r(τi)</code>: 轨迹 <code>i</code> 的原始奖励,成功为1,失败为0。</font></p><p><font size="3">• <code>Ti</code>: 轨迹 <code>i</code> 的总步数(路径长度)。</font></p><p><font size="3">• <code>Tmin</code>: 在当前批次的所有成功轨迹中,<b>最短</b>的那条路径的长度。</font></p><p><font size="3">• <code>α</code>: 一个控制惩罚强度的超参数(0到1之间)。</font></p><p><font size="3">这个公式意味着,只有最短的成功路径能获得满分奖励。其他成功路径的奖励会根据其超出最短路径的长度比例进行折扣,路径越长,折扣越大。</font></p><p><font size="3">核心价值 (The "So What?")</font></p><p><font size="3">• <b>消除偏见:</b> 有效地抵消了模型在训练中偏爱冗长、繁琐操作路径的倾向。</font></p><p><font size="3">• <b>提升效率:</b> 引导模型学习更短、更符合用户直觉的解决方案,显著提升了任务完成的步骤效率 (step efficiency)。</font></p><p><font size="3">通过SPA,我们让智能体懂得了“好”的成功是高效的。但对于那些来之不易的成功经验,我们又该如何让智能体牢牢记住并反复学习呢?这就是难度自适应正向回放(AdaPR)策略要解决的问题。</font></p><h2>二. 难度自适应正向回放 (AdaPR) —— 打造AI的“好题本”,巩固稀有成功经验</h2><p><font size="3">要解决的问题</font></p><p><font size="3">在奖励稀疏的环境下,那些困难任务的成功经验就像金子一样宝贵——它们既稀有,又包含着极其丰富和有价值的学习信号。传统的训练方法通常对所有新产生的经验一视同仁地进行学习(均匀采样),这会导致那些宝贵的成功案例被海量的普通或失败案例所淹没,其学习信号无法被有效利用。这就像学生做练习,不对难题、错题进行归纳复习,学习效果自然大打折扣。</font></p><p>
<img width="1133" height="615" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135234737-1448760366.png" border="0">
</p><p><font size="3">工作原理</font></p><p><font size="3"><b>难度自适应正向回放 (Difficulty-Adaptive Positive Replay, AdaPR)</b> 的核心思想,就是为AI打造一个专属的“好题本”,策略性地存储和重放那些有价值的、困难的成功轨迹。它借鉴了强化学习中经典的<b>经验回放 (experience replay)</b> 范式,并将其应用得更具策略性。</font></p><p>
<img width="1136" height="588" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135236627-1601702150.png" border="0">
</p><p>
<img width="1127" height="600" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135238388-930892921.png" border="0">
</p><p><font size="3">它的工作流程分为两步:</font></p><p><font size="3">1. <b>构建高质量经验池 (Buffer Construction):</b> 系统会维护一个“经验回放缓冲区”(Replay Buffer)。当智能体在探索中完成一个任务并取得成功时,系统会通过其<b>轨迹级优势值 (trajectory-level advantage)</b> 来评估这次成功经验的价值。那些被判定为困难且高价值的成功轨迹会被筛选出来,存入这个专属的经验池中。</font></p><p><font size="3">2. <b>混合采样与学习 (Mixture Sampling):</b> 在每次进行模型更新时,训练过程不再仅仅依赖于新探索产生的“在策略”(on-policy)样本。它会从经验池这个“好题本”中,抽取一部分高质量的成功经验,并与新样本混合在一起,共同用于模型的学习。这确保了模型既能“温故知新”,巩固已经掌握的困难技能,又能不断探索新的可能性。</font></p><p>
<img width="1136" height="611" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135240185-1470794508.png" border="0">
</p><p><font size="3">核心价值 (The "So What?")</font></p><p><font size="3">• <b>放大关键信号:</b> 极大地放大了稀有但信息量丰富的成功案例的学习效果,让模型对如何解决困难问题学得更扎实、更深刻。</font></p><p><font size="3">• <b>稳定训练过程:</b> 通过反复“复习”高价值的成功经验,帮助稳定策略的更新过程,有效防止模型在探索新策略时遗忘已经学会的关键技能。</font></p><p><font size="3">AdaPR确保了每一次宝贵的成功都不会被浪费。然而,面对那些AI屡战屡败、似乎无法逾越的难题,我们是应该让它继续死磕,还是选择策略性放弃呢?这引出了我们的第三个策略——失败课程过滤(FCF)。</font></p><p>
<img width="1104" height="603" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135243582-426874100.png" border="0">
</p><h2>三.失败课程过滤 (FCF) —— 学会“策略性放弃”,聚焦可学范围</h2><p><font size="3">要解决的问题</font></p><p><font size="3">移动智能体面临的任务存在“<b>难度重尾分布</b>”现象(通俗地说,就是绝大多数任务难度适中,但有少数几个任务极其困难,占用了不成比例的失败尝试次数)。对于当前阶段的模型来说,这些极难的任务就像是持续无法解决的“死胡同”。如果让模型在这些任务上反复尝试,不仅无法获得任何有价值的积极信号,还会严重浪费宝贵的计算资源和时间,拖慢整体的学习进度。</font></p><p><font size="3">工作原理</font></p><p><font size="3"><b>失败课程过滤 (Failure Curriculum Filtering, FCF)</b> 的核心思想,是一种简化的课程学习(Curriculum Learning)。它通过动态调整任务的采样权重,智能地减少在那些“似乎无解”的任务上的资源投入。</font></p><p><font size="3">FCF的机制如下: 系统会追踪每个任务的失败历史。如果一个任务连续数个周期都完全失败(例如,连续2个周期),系统就会大幅降低其被采样的概率(进入“冷却期”),若持续失败则可能将其从训练池中永久移除。</font></p><p><font size="3">核心价值 (The "So What?")</font></p><p><font size="3">• <b>优化计算预算:</b> 将宝贵的计算资源从那些当前无法解决的任务上,重新分配到模型有潜力学习和改进的可行任务上,实现了计算资源的智能调度。</font></p><p><font size="3">• <b>提高样本效率:</b> 通过聚焦于“可解”和“待解”的问题范围,确保了模型每次探索生成的训练数据(轨迹)更有可能包含有价值的学习信号,从而从整体上提高了训练的样本效率。</font></p><p><font size="3">至此,我们已经分别了解了ADAGRPO的三个“锦囊妙计”。但它们的威力并不仅仅是简单的相加,而是三位一体、协同作战的结果。</font></p><h2>四. 协同作用:三位一体,打造高效稳定的学习框架</h2><p><font size="3">ADAGRPO的三个策略并非孤立工作,而是相辅相成,共同构成一个高效、稳定的学习框架,系统性地解决了移动智能体训练中的核心难题。</font></p><p><font size="3">下图以流程图的形式,直观地展示了三者在训练循环中的协同工作方式:</font></p>
  1. <code><font size="3">[开始] --> 1. 智能体与手机环境交互,生成经验轨迹
  2.    |
  3.    V
  4. 2. FCF (失败课程过滤) 动态调整任务采样权重,
  5.    优先选择“可学习”的任务进行下一轮交互。
  6.    |
  7.    V
  8. 3. SPA (最短路径奖励调整) 对成功完成的轨迹进行评分,
  9.    为更高效的(路径更短的)成功轨迹赋予更高的奖励。
  10.    |
  11.    V
  12. 4. AdaPR (难度自适应正向回放) 将高价值的成功轨迹
  13.    (如攻克难题的经验)存入专属的“经验池”。
  14.    |
  15.    V
  16. 5. 模型更新:将来自“经验池”的宝贵旧经验与新产生的经验混合,
  17.    共同用于更新模型策略。
  18.    |
  19.    V
  20. [返回步骤 1,开始新的循环]
  21. </font></code>
复制代码
<p><font size="3">我们可以这样理解它们的协同流程: 首先,<b>FCF</b> 扮演“课程设计师”的角色,它预先筛选出当前值得学习的“题目范围”,避免AI在无法解决的问题上浪费时间。接着,智能体在这些被筛选过的任务上进行探索和尝试。对于探索中攻克的“难题”(高质量的成功轨迹),<b>AdaPR</b> 就像一个“智能好题本”,将其收录并让智能体反复“复习”,以加深理解。最后,在每一次成功的“解题”后,<b>SPA</b> 充当“评分老师”,为那些解法“简洁优美”(即路径最短)的成功案例打上更高的分数,激励AI追求更高效的解决方案。</font></p><p>
<img width="1154" height="615" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135246555-127416169.png" border="0">
</p><p>
<img width="1136" height="600" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135248388-1375877860.png" border="0">
</p><p><font size="3">从强化学习的角度看,这个框架通过课程学习(FCF)优化了探索空间,通过奖励重塑(SPA)优化了信用分配,并通过优先经验回放(AdaPR)优化了样本利用率,从而系统性地提升了在线学习的稳定性和效率。</font></p><h2>总结</h2><p><font size="3">  ADAGRPO算法通过三个设计精巧且互补的核心策略,为训练手机AI助手这一复杂挑战提供了系统性的解决方案:</font></p><p>
<img width="1128" height="607" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135250250-1665565935.png" border="0">
</p><p><font size="3">• <b>最短路径奖励调整 (SPA):</b> 重新定义了“成功”,让效率成为衡量标准。</font></p><p><font size="3">• <b>难度自适应正向回放 (AdaPR):</b> 珍视并放大了每一个来之不易的成功经验。</font></p><p><font size="3">• <b>失败课程过滤 (FCF):</b> 学会了“策略性放弃”,让学习资源聚焦于最有价值的地方。</font></p><p>
<img width="1353" height="742" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135252612-2085169800.png" border="0">
</p><p>
<img width="1134" height="617" title="image"  alt="image" src="https://img2024.cnblogs.com/blog/15172/202512/15172-20251214135256137-595998900.png" border="0">
</p><p><font size="3">这三个策略的共同目标,都是通过智能地适应任务难度、放大有效信号并提升求解效率,来克服移动GUI智能体在线强化学习中的种种障碍。ADAGRPO的成功实践,最终助力模型在<b>AndroidWorld等关键基准测试中取得了超过80%的成功率</b>,为我们未来构建更强大、更通用的GUI交互智能体,展示了一条清晰而有效的路径。</font></p>今天先到这儿,希望对AI,云原生,技术领导力, 企业管理,系统架构设计与评估,团队管理, 项目管理, 产品管理,信息安全,团队建设 有参考作用 , 您可能感兴趣的文章:<br><font size="2">微服务架构设计</font><br><font size="2">视频直播平台的系统架构演化</font><br><font size="2">微服务与Docker介绍</font><br><font size="2">Docker与CI持续集成/CD</font><br><font size="2">互联网电商购物车架构演变案例</font><br><font size="2">互联网业务场景下消息队列架构</font><br><font size="2">互联网高效研发团队管理演进之一</font><br><font size="2">消息系统架构设计演进</font><br><font size="2">互联网电商搜索架构演化之一</font><br><font size="2">企业信息化与软件工程的迷思</font><br><font size="2">企业项目化管理介绍</font><br><font size="2">软件项目成功之要素</font><br><font size="2">人际沟通风格介绍一</font><br><font size="2">精益IT组织与分享式领导</font><br><font size="2">学习型组织与企业</font><br><font size="2">企业创新文化与等级观念</font><br><font size="2">组织目标与个人目标</font><br><font size="2">初创公司人才招聘与管理</font><br><font size="2">人才公司环境与企业文化</font><br><font size="2">企业文化、团队文化与知识共享</font><br><font size="2">高效能的团队建设</font><br><font size="2">项目管理沟通计划</font><br><font size="2">构建高效的研发与自动化运维</font><font size="2"> <br></font><font size="2">某大型电商云平台实践</font><font size="2"> <br></font><font size="2">互联网数据库架构设计思路</font><font size="2"> <br></font><font size="2">IT基础架构规划方案一(网络系统规划)</font><font size="2"> <br></font><font size="2">餐饮行业解决方案之客户分析流程</font><font size="2"> <br></font><font size="2">餐饮行业解决方案之采购战略制定与实施流程</font><font size="2"> <br></font><font size="2">餐饮行业解决方案之业务设计流程</font><font size="2"> <br></font><font size="2">供应链需求调研CheckList</font><font size="2"> <br></font><font size="2">企业应用之性能实时度量系统演变</font><font size="2"> </font><font size="2">
</font><p><font size="2">如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理 资讯,请关注我的微信订阅号:</font></p>
<p>
<img width="258" height="258" title="_thumb_thumb_thumb_thumb_thumb_thumb"  alt="_thumb_thumb_thumb_thumb_thumb_thumb" src="https://img2024.cnblogs.com/blog/15172/202507/15172-20250705103200340-951511611.jpg" border="0">
</p>
<p id="PSignature" ><font size="4">作者:Petter Liu <br>出处:http://www.cnblogs.com/wintersun/ <br>本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
该文章也同时发布在我的独立博客中-Petter Liu Blog。</font></p><br>来源:程序园用户自行投稿发布,如果侵权,请联系站长删除<br>免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册