捐催制 发表于 2025-6-4 20:53:21

[AI/GPT/综述] AI Agent的设计模式综述

序:文由


[*]其一,随着大模型的发展,通用智能不断迭代升级,应用模式也不断创新,从简单的Prompt应用、RAG(搜索增强生成)、再到AI Agent(人工智能代理)。
其中AI Agent一直是个火热的话题,未来将无处不在。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250312005557734-575308614.png

[*]其二,AI应用层的三大件


[*]1、Prompt:提示词
[*]2、RAG:以词嵌入模型+向量数据库构建的领域知识库
[*]3、Agent/MCP:代理/模型上下文协议


[*]MCP := 模型上下文协议 := AI Agent应用与外部系统集成的标准协议 - 博客园/千千寰宇
AI Agent的设计模式,作为向AI转型的开发人员,不得不了解一二。
本文属于历时多日、耗费不少个夜晚、翻遍诸多论文、论文解读文章后的集成型文章,愿对你我有所帮助。(参考文献,参见文末)
以下,引用2位大佬对AI Agent的观点。


[*]“终极技术竞赛将围绕着开发顶级AI Agent” ---- 比尔盖茨
他说:“你再也不会去搜索网站或亚马逊了......”。
说明他看好人工智能给人机交互模式带来的巨大变化,也认可AI Agent在当中扮演的重要角色。


[*]“AI Agent 正在重塑软件开发的未来” ---- 吴恩达(Andrew NG)
2024年3月,吴恩达大师的"Agentic Reasoning(Agentic推理)"演讲, 
他提出了一个重要观点:AI Agent 正在重塑软件开发的未来。 
不同于传统单模型,多 Agent 协作系统能更好地解决复杂问题。 
特别认同他说的一点:与其把 AI 视为替代品,不如学会重新定义协作方式。 
AI Agent 的快速迭代能力,正是我们需要把握的优势。 
综上,2025 年,Agent 的爆发是必然趋势。


[*]文章先对对吴老师的 AI 智能代理工作流的四种设计模式(因其最为精炼、深入本质)的由来和内容进行介绍;再整合其他论文中对于AI Agent设计模式的观点,做进一步阐述。
概述:AI Agent

为什么需要设计模式?


[*]设计模式是软件开发中的一种高效沟通和解决问题的工具。
它们源自于经验丰富的开发者在面对重复出现的设计难题时所采用的解决方案。
正如“微服务架构之父”Martin Fowler在《Patterns》文章中曾指出的:“设计模式的价值在于它们提供了一种模板/格式来封装设计建议,使我们能够集中讨论与特定问题紧密相关的解决方案。这些模式帮助我们避免在大量不相关信息中迷失方向,而是直接针对问题核心进行思考。”


[*]Martin Fowler在《Patterns》中曾强调,每个设计模式都应当包含2个关键部分:如何实现(how)以及何时使用(when)。
因此,抽象出良好的、面向特定问题的通用化解决方案,正是设计模式在领域中发挥作用、帮助解决领域问题的关键所在。
另一方面,了解何时不使用某个模式也同样重要,因为设计本质上是关于选择和权衡。
AI Agent 是什么?


[*]AI Agent 是一个由人工智能驱动的虚拟助手,它能够帮助实现流程自动化、生成见解、提升效率。
可以作为员工或合作伙伴帮助实现人类赋予的目标。


[*]恒温器就是一个简单的Agent例子
它可以根据特定的时间调节加热达到特定的温度。它通过温度传感器和时钟感知环境。它通过一个开关采取行动,可以根据实际温度或时间打开或关闭加热。
恒温器可以通过添加AI 功能变成一个更复杂的AI Agent,使其能够从居住在房子里的人的习惯中学习。
https://img2024.cnblogs.com/blog/1173617/202502/1173617-20250216094717510-10626162.png
https://img2024.cnblogs.com/blog/1173617/202502/1173617-20250216094756497-1358388820.png
普通AI应用 vs. AI Agent 应用 的区别?



[*]普通 AI 应用 : 用户 -- AI 大模型(LLM)
[*]AI Agent 应用 : 用户 -- AI Agent (访问: RAG / 网站 / 数据库 / 本地资源 / ...) -- AI 大模型(LLM)
普通AI应用与AI Agent应用的主要区别在于自主性、交互性和任务复杂性:

[*]自主性:

[*]普通AI应用:通常被动执行预设任务,依赖用户输入,缺乏自主决策能力。
[*]AI Agent应用:具备自主性,能够根据环境和目标主动决策并采取行动。

[*]交互性:

[*]普通AI应用:交互简单,多为单向执行,如语音识别或图像分类。
[*]AI Agent应用:交互复杂,能够与环境动态互动,并根据反馈调整行为。

[*]任务复杂性:

[*]普通AI应用:处理单一任务,功能较为基础。
[*]AI Agent应用:处理复杂任务,涉及多步骤决策和长期规划,如自动驾驶或智能助手。

[*]学习与适应:

[*]普通AI应用:通常不具备学习能力,行为固定。
[*]AI Agent应用:能够通过机器学习适应新环境和任务,持续优化表现。

[*]目标导向:

[*]普通AI应用:无明确目标,仅执行特定功能。
[*]AI Agent应用:有明确目标,能够规划行动以实现目标。



[*]示例


[*]普通AI应用:语音助手执行简单指令,如设置闹钟。
[*]AI Agent应用:智能家居系统根据用户习惯自动调节设备,无需用户干预。
总结:普通AI应用功能单一且被动,而AI Agent应用则更自主、交互性强,适合处理复杂任务。
吴恩达在【红杉 AI Ascent 2024】会上以【Agentic Reasoning(AI Agent的推理)】的主题演讲 => 深度透析:【AI Agent 工作流的演进与前景】

此章节,有较多吴恩达的原文对话,可能翻译不是很顺畅,不感兴趣的可以跳过原话,忽略这部分即可。


[*]AI领域宗师级吴恩达(斯坦佛大学.计算机科学教授)在【红杉 AI Ascent 2024】会议上以【Agentic Reasoning(AI代理的推理)】为演讲主题的深度剖析——AI Agent 工作流的演进与前景


[*]演讲时间:2024.03
LLM-Based Agents - Bilibili
重要观点: 所有构建AI的人们,都应该关注【人工智能代理(AI Agent)】

原文讲话
我期待与大家分享我在人工智能代理(AI Agent)方面的观察,我认为这是一个令人兴奋的趋势,所有构建人工智能的人都应该关注。人工智能代理(AI Agent),今天大多数人使用大型语言模型(LLM)的方式是通过一种非代理的工作流程:你输入一个提示,通常会得到一个答案。这有点像如果你让一个人就某个主题写一篇文章,我会说,请坐到键盘前,从头到尾直接打出这篇文章,而不使用退格键。尽管这很困难,但与【Agent工作流】相比,后者的表现相当出色。这可能看起来是这样的。拥有人工智能,拥有发言权,写出超越的论文。你需要进行任何地方的研究。如果是这样,那就这样做吧。然后写第一稿,然后阅读自己的第一稿,思考哪些部分需要修订,然后修订你的草稿,反复进行。因此,这个AI Agent工作流有更多迭代,您可能会让LLM大模型进行一些思考,然后修改这篇文章,再进行一些思考,并多次迭代。而许多人没有意识到的是,这能带来显著更好的结果。https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311000225956-76914498.png
重要观点: AI Agent 应用 vs. 普通非AI Agent的智能应用 => AI Agent + 普通的LLM模型(如:GPT3.5),普遍强于优秀的LLM大模型(如:GPT 4)本身

原文讲话
我实际上真的让自己感到惊讶。工作在决策上,他们做得如何。作为案例研究,我的团队使用一个名为人类评估基准的编码基准分析了一些数据,该基准是几年前由OpenAI发布的。https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311000305097-573196453.png
但这有编码问题,比如给定一个非反向的整数列表,返回所有奇数元素或奇数位置的总和。结果答案是,你就这样编写代码片段。所以今天,我们很多人会使用 0-Shot Prompt,这意味着:我们告诉AI编写代码并在第一部分上运行。像谁那样?没有人会那样编写代码,或者你只是输入代码,他们就运行它。也许你知道。我做不到。所以,结果是:如果你使用GPT3.5,0-Shot Prompt 的成功率为48%。GPT-4 的 0-Shot Prompt 更好,有 67% 的比率。但如果你将一个 AI Agent 工作流围绕 GPT-3.5 进行构建,它实际上表现得比 GPT-4 还要好。如果你将这种工作流程应用于gpt-4,它也会表现得很好。你会注意到,gpt3.5 在一个代理工作流程中实际上表现优于 GPT-4,我认为。特别说明: 0-shot 即 零样本学习(可百科搜索学习)
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311000349326-726549300.png
这意味着:AI Agent 对我们所有人构建应用程序的方式有重大影响,我认为。重要观点:AI Agent 四大的设计模式 (必读)

https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311000647849-830617127.png
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311015621860-1107786464.png
可以这么理解:


[*]反思(Reflection): LLM 检查自己的工作,以提出改进方法。 
[*]工具使用(Tool use): LLM 拥有网络搜索、代码执行或任何其他功能来帮助其收集信息、采取行动或处理数据。 
[*]规划(Planning):LLM 提出并执行一个多步骤计划来实现目标(例如,撰写论文大纲、进行在线研究,然后撰写草稿......) .  
[*]多智能体协作(Multi-agent collaboration): 多个 AI 智能代理一起工作,分配任务并讨论和辩论想法,以提出比单个智能体更好的解决方案。 
原话
AI Agent作为决定因素,常常被提及和讨论。有很多咨询报告。Agent怎么样,人工智能的未来,等等,等等。但我想具体一点,和你分享我对的广泛的Agent设计模式的理解:这是一个非常杂乱、混乱的领域。大量的研究,大量的开源。发生了很多事情,但我试图尽量更具体地分类一下,究竟发生了什么?1. 反思/Reflection这是我认为我们许多人在用的一种工具。它就是好用。我认为它更广泛地被认可,但实际上效果很好。我认为这些是相当强大的技术。当我使用它们时,我几乎总是能让它们运作良好。https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311000926710-1690569766.png
robust technology : 强大的技术,指在各种条件下都能够稳定运行的技术。
emerging technology : 新兴技术,指正在发展和成长的、前景广阔的技术领域,通常是指那些在过去几年中开始出现并在未来几
2+3. 规划和多代理协作,我认为这是新兴的。当我使用它们时,有时我会惊讶于它们的表现是多么出色。但至少在这个时刻,我感觉我无法始终让它们可靠地工作。让我来逐一介绍这些完整的设计模式。Reflection/反思

原话
如果你们中的一些人回去后自己要求工程师使用这些,我认为你们会很快获得生产力提升。所以,反思,这里是一个好的例子。假设我问一个系统,请为我写一个特定任务。然后我们有一个编码的Agent,只是你提示写代码来告诉你做任务,写一个这样的函数。自我反思的一个例子是,如果你接用像这样的方式提示 LLM 大模型。然后只给他返回给你的刚刚生成的完全相同的代码。然后说仔细检查代码的正确率和效率、完好的结构,只需像那样写提示。你将用于编写代码的同一个LLM可能能够识别像图中这样的5行中bug,并可以通过 blah, blah, blah 来修复它。如果你现在将你的反馈给它,并重新提示,它可能会生成该任务的第二个版本的代码,这个版本可能比第一个版本更有效。不绝对保证,但它有效,你知道,通常情况下。但这值得尝试,以便应用法则进行预示、使用。如果你让它运行单元测试,如果它未通过单元测试并且问,为什么你未通过单元测试,进行那场对话,或许能够找出未通过单元测试的原因。所以,应该尝试改变一些东西,推出V3。顺便说一下,对于那些想要了解更多关于这些AI技术的人,我也对此非常兴奋:对于每个部分,我在PPT底部都有一个推荐的小阅读部分。你知道整个功能的Res,更多的参考。再一次,我提到的多智能体系统的前兆,就像一个单一的编码Agent,你可以通过提示来让它工作。你有这个对话本身。这个想法的一个自然演变是,可以有两个代理,而不是一个单一的编码代理,一个是【编码Agent】,另一个是【评论Agent】。这些可能是相同的LLM模型,但你以不同的方式进行提示。我们说一个是你的导出代码或编写代码,另一个是说你的出口代码审查查看器作为审查这段代码,这个工作流程实际上是相当容易实现的。我认为这是一种非常通用的技术,适用于许多工作流程。这将为您提供一个显著提升lms性能的机会。Tool Use/工具使用

https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311001837318-450389020.png
第二种设计模式是使用许多人已经看到的基于lm的系统工具。左侧是来自 copilot 的屏幕截图。右边是我从 gpt4 中提取的一些东西。但是你知道,今天的 oms,如果你问它,最好的咖啡机,它在某些问题上进行了新的网络搜索。LLM 将生成代码、并运行代码。结果发现,有很多不同的工具被许多人用于收集信息、分析决策、采取行动、提升个人效率。事实证明,早期的工作主要集中在计算机视觉领域,因为在大型语言模型出现之前,它们可以处理任何与图像相关的任务。所以,唯一的选择是让 LLM 生成一个函数调用,其可以操控图像,比如生成图像或进行物体检测等等。所以,如果你仔细看看文献,是很有趣的,近两年很多工作似乎源于计算机视觉因为元素在图像之前就已经存在。 GPT4、LLAMA等。所以,这就是使用 LLM,而Agent则扩展了LLM更多可以做的事情。Planning/计划&规划

https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311002028912-1144273097.png
在规划方面,你知道,对于那些还没有大量使用规划算法的人,我觉得很多人都在谈论ChatGPT的时刻,你会感到,哇,从未见过这样的东西。我认为你没有使用规划算法。许多人将拥有一种人工智能代理。哇,我无法想象一个AI Agent 会做得这么好。所以我进行过现场演示,期间出现了一些故障,但 AI Agent 成功绕过了这些故障。我实际上经历过不少这样的时刻,哇,你不能相信这个AI系统居然是自主完成的。但我从 hugging face 论文中改编了一个例子。你对 AI Agent 说,请生成一幅图像,图中有女孩在阅读,女孩正在读一本书,而提供的图中男孩与需要绘制的女孩的姿势相同,请用jpeg绘制我们所看到的新图像。所以,今天用人工智能代理给个这样的例子,你可以自己决定。我需要做的第一件事是确定那个男孩的帖子,然后,你知道,找到合适的模型,也许在 Hugging Face 上提取帖子。然后接下来需要找到后图像模型来合成一张女孩的图片,按照以下指示,然后使用图像转文本,最后再将文本转为语音。今天我们有一些代理,我不想说他们工作得很可靠。你知道,它们有点挑剔。它们并不总是有效,但当它有效时,实际上是相当惊人的。但在代理组中,有时你也可以从早期的失败中恢复。所以我发现自己在一些工作中已经开始使用研究代理。好吧,这是一项研究,但我不想自己去搜索,也不想花太多时间。我应该把这个发给他们的研究代理,过几分钟回来看看有什么进展,有时候会有什么结果,对吧?有时候也没有很好的效果。但这已经是我个人工作的一个部分了。Multi-Agent Collaboration/多代理协作

https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311002137688-1624549085.png
最后的一种设计模式,多Agent协作。这是一件有趣的事情,但它的效果比你想象的要好得多。但左边是来自一篇名为 chat Dev 的论文的截图,该论文是完全开放的,实际上是开源的。许多人看到闪亮的社交媒体公告、Demo演示、Devon。Chat Dev 是开源的,在我的笔记本电脑上运行。Chat Dev所做的就是一个多Agent系统协作的例子。在这个系统中,你可以提示一个LLM,有时模拟软件公司的首席执行官,有时模拟设计师,有时作为产品经理,有时作为测试工程师。以及你通过提示LLM构建了一群代理,告诉他们你现在是一个CEO,你现在是软件工程师。让他们(Agent们)合作,进行深入的对话。所以,如果你告诉它,请开发一个游戏,开发一个好的go moki的游戏。他们实际上会花你几分钟时间编写代码,测试它,迭代,然后生成,像是令人惊讶的复杂程序,但并不总是有效。我用过它。有时候它不起作用。有时候真令人惊讶。但这项技术确实在不断进步。而且,正好是其中一种设计模式,结果是多智能体辩论,其中有不同的智能体。比如,可以让 Cha GPT和Gemini互相辩论,这实际上也会带来更好的表现。所以,让多个 Agent一起工作,是一种强大的设计模式。小结 :Agent 设计模式 & 结论

所以,简单总结一下,我认为这些是我看到的模式。我认为,如果我们在工作中使用这些模式,我们中的很多人可以在失去的过程中迅速获得实践。我认为 【推理 Agent】设计模式将会很重要。这是我预期的最后一张幻灯片。因此,由于代理工作流程,人工智能能够执行的任务将在今年大幅扩展。而实际上让人们难以适应的一件事是,当我们提示某人时,他们希望立即回应。事实上,十年前,当我在进行讨论时,我们称之为【大盒子搜索】类型的长提示。你知道我未能成功推动这一点的原因之一是,当你进行网络搜索时,你希望在半秒内得到回应,对吧?这就是人性。人们都喜欢那种即时抓取、即时反馈。但对于许多现有的工作流程,我认为我们需要学会将任务交给人工智能代理,并耐心等待几分钟,甚至几个小时的回复。但就像我见过很多新手经理把某件事交给某人,然后五分钟后就去查看一样,对吧?也是如此。我们也需要对一些我们的人工智能代理进行这样的操作。我觉得我总是听到一些lauand。然后,一个重要的trenfast hocongenerators很重要,因为有了这些代理,我们可以反复进行工作。所以这个元素正在生成令牌,以便能够生成令牌的速度比任何人阅读都要快,这真是太棒了。我认为,即使是稍微低质量的语言模型快速生成更多的标记,可能会比更好的语言模型慢速生成的标记产生更好的结果。也许这有点争议,因为它可能让你在这个循环中多转几次,就像我在第一张幻灯片上展示的gpc和代理架构的结果以及candidellee一样。我真的很期待cfive、clock 4、gpt5、Gemini I 2.0以及所有这些其他的one、four型号在架构中的表现。我感觉如果你期待在gpt5零样本上运行你的项目,你可能会发现某些应用的性能实际上比你想象的更接近那个水平,尤其是在进行推理时。但在早期的模型上,我认为这是一个重要的趋势。老实说,通往AGI的道路感觉像是一段有明确目的地的旅程。但我认为这种代理工作队伍可以帮助我们在这段漫长的旅程中迈出小小的一步。

[*]Agent 设计模式
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311002300068-205215313.png

[*]结论
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311002649060-1184005818.png
总览:AI Agent设计模式

AI Agent应用与环境的交互模式

AI Agent 定义

"AI Agent是任何可以通过传感器感知其环境并通过执行器对【环境】采取行动的东西。"
————罗素和诺维格,《人工智能:一种现代方法》(2016年)
Agent 与环境互动的组件构成


[*]Agents与环境互动,通常包括的重要组件:


[*]环境 —— 代理互动的世界
[*]传感器 —— 用于观察环境
[*]执行器 —— 用于与环境互动的工具
[*]效应器(决策器) —— 决定如何从观察到行动的“大脑”或规则
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325233548235-470333676.png
这个框架适用于所有与各种环境互动的代理,比如与物理环境互动的机器人或与软件互动的AI Agents。
可以稍微扩展这个框架,使其适用于“增强型LLM”。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325233647714-270949170.png

[*]使用“增强型”LLM,Agent可以通过文本输入观察环境,并通过使用工具执行某些行动。
[*]为了选择/决策要采取哪些行动,LLM Agent有一个关键组件:它的计划能力。
为此,LLM 需要能够通过链式思考等方法进行“推理”和“思考”。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325233821484-1343201852.png
利用这种推理行为,LLM Agent将计划出要采取的必要行动。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325234003185-949035452.png

[*]这种计划行为,使Agent能够理解情况(LLM)、计划下一步(计划)、采取行动(工具),并跟踪已采取的行动(记忆)。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325234056385-151186797.png

[*]根据系统,你可以拥有不同程度自主性的 LLM Agents。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325234134414-390604104.png

[*]一个系统越“agentic”,LLM 就越能决定系统的行动方式。
[*]将通过 LLM Agent的三个主要组件:记忆、工具和计划,来探索各种自主行为的方法。
记忆


[*]LLM 是健忘的系统,或者更准确地说,在与它们互动时,它们根本不进行任何记忆。
例如,当你问 LLM 一个问题,然后又接着问另一个问题时,它不会记得前者。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325234417214-942387982.png

[*]我们通常将其称为短期记忆,也称为工作记忆,它作为(近乎)即时上下文的缓冲区。
这包括 LLM 代理最近采取的行动。
然而,LLM 代理还需要跟踪可能多达数十步的行动,而不仅仅是最近的行动。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325234444318-1732627858.png

[*]这被称为长期记忆,因为 LLM 代理理论上可能需要记住多达数十步甚至数百步。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325234603737-485859785.png
短期记忆 := 工作记忆


[*]实现短期记忆最直接的方法是使用模型的上下文窗口,这本质上是 LLM 可以处理的 token 数量。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325234655231-1805774417.png

[*]较大的上下文窗口可以用来跟踪完整的对话历史,作为输入提示的一部分。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325234719870-858733558.png

[*]对于上下文窗口较小的模型,或者当对话历史较大时,可以改用另一个 LLM 来总结到目前为止发生的对话。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325235223781-1077829614.png
长期记忆


[*]LLM Agents的长期记忆包括需要长期保留的Agents过去的行动空间。
[*]实现长期记忆的一个常见技术是将所有之前的互动、行动和对话存储在一个外部向量数据库中。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325235401740-19370885.png

[*]在构建数据库之后,可以通过RAG方式检索相关信息。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325235703460-293754163.png
工具


[*]工具允许给定的 LLM 要么与外部环境(如数据库)互动,要么使用外部应用程序(如运行自定义代码)。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325235734936-232527350.png

[*]工具通常有两种用例:获取数据以检索最新信息和采取行动
比如:安排会议或点餐。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325235825812-1305801353.png

[*]要实际使用一个工具,LLM 必须生成适合给定工具的 API 的文本。
我们通常期望的是可以格式化为 JSON 的字符串,以便可以轻松地输入到代码解释器中。
Toolformer


[*]工具使用是一种强大的技术,可以增强 LLM 的能力并弥补它们的不足。
因此,关于工具使用和学习的研究在过去几年中迅速增加。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325235918829-1757092894.png

[*]最早实现这一目标的技术之一被称为 Toolformer,这是一个训练用于决定调用哪些 API 以及如何调用的模型。
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250325235947039-371441824.png
超级 AI Agent 的能力构成 := 规划/编排 + 工具使用/行动 + 反思 + 协作 + 记忆 | 个人观点

https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250319005256485-146244180.png
9大 AI Agent 设计模式

https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250318225918524-2067257891.png
AI Agent的4大能力:反思、规划、工具使用、协作 | 基于吴恩达观点

AI Agent 反思模式

https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311232905849-426857013.png
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311020303767-413400928.png
适用场景


[*]内容创作 


[*]文案写作 
[*]代码编写 
[*]方案设计 


[*]问题解决 


[*]逻辑检验 
[*]方案完善 
[*]结果优化 


[*]质量提升 


[*]自我纠错 
[*]持续改进 
[*]精益求精 
案例:AI 写一篇电商产品文案


[*]第一轮输出: 
"这款新上市的智能手表功能强大,续航持久,性价比高,喜欢的朋友赶快下单吧!" 


[*]开始反思过程
自我检查 1:信息具体度 
❌ "功能强大" - 太空泛 
❌ "续航持久" - 没有数据 
❌ "性价比高" - 缺乏对比 
❌ "赶快下单" - 硬推销 
改进方向: 

[*]需要具体功能点 
[*]需要实际数据 
[*]需要价格信息 
[*]需要柔性表达 


[*]第二轮输出: 
"这款智能手表配备心率监测、睡眠分析、运动记录等健康功能, 
1600mAh 电池可持续使用 7 天,售价 899 元比同类产品低 20%,欢迎体验。" 


[*]继续反思
用户自我检查 2: 
❓ 用户真正关心什么? 


[*]实际使用场景 
[*]解决什么问题 
[*]独特价值在哪 


[*]改进方向: 


[*]添加使用场景 
[*]突出核心痛点 
[*]强化差异化 


[*]第三轮输出: 
"无论是清晨跑步还是夜间睡眠,这款智能手表都能 24 小时守护您的健康。心率异常自动提醒、专业运动指导、深度睡眠分析,让您对身体状态了如指掌。7 天续航无需频繁充电,899 元的亲民价格,让健康管理不再是负担。" 


[*]最终反思
自我检查 3:完整性 
✓ 场景具体 
✓ 功能明确 
✓ 数据支撑 
✓ 情感共鸣 
✓ 价值主张 
AI Agent 工具使用模式


[*]工具使用(Tool use): 
LLM 拥有网络搜索、代码执行或任何其他功能 
来帮助其收集信息、采取行动或处理数据。 
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311232944251-523650443.png
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311020712659-1138660672.png
案例:帮用户分析一家公司的财务状况

1 数据收集阶段


[*]1.1 使用工具组合: 


[*]网页抓取工具


[*]公司官网
[*]财报数据
[*]新闻报道


[*]API 调用


[*]股票行情
[*]行业数据


[*]文档解析器


[*]PDF 文件
[*]Excel 表格


[*]1.2 原始数据获取 
↓ 抓取最新财报 PDF 
↓ 提取关键财务数据 
↓ 获取实时股价信息 
↓ 采集行业对标数据 
2 数据处理阶段


[*]2.1 使用工具组合: 


[*]数据清洗工具
[*]计算引擎
[*]统计分析包


[*]2.2 处理流程: 
↓ 格式标准化 
↓ 异常值处理 
↓ 计算财务指标 
↓ 生成对比图表 
3 分析输出阶段


[*]3.1 使用工具组合: 
可视化工具
报告生成器
格式转换器


[*]3.2 输出内容: 
↓ 关键指标图表 
↓ 同业对比分析 
↓ 风险提示报告 
↓ 投资建议生成 
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311021232964-508199908.png
AI Agent 规划模式


[*]规划(Planning): 
LLM 提出并执行一个多步骤计划来实现目标(例如,撰写论文大纲、进行在线研究,然后撰写草稿......) .  
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311233027825-1334515669.png
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311021308912-443603681.png
案例:春节旅游规划


[*]总体规划
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311021435083-1526864085.png

[*]需求分析
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311021415945-1890007779.png

[*]目的地筛选
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311021507498-462258694.png
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311021522731-2132426179.png
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311021544318-1448990503.png
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311021559276-150790070.png

[*]行程规划
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311021623925-216429358.png

[*]资源预订
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311021656167-1222626528.png
AI Agent 多智能体协作模式


[*]多智能体协作(Multi-agent collaboration): 
多个 AI 智能代理一起工作,分配任务并讨论和辩论想法,以提出比单个智能体更好的解决方案。 
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311233115597-678992839.png
https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311021737980-680131270.png
案例:小红书旅游博主创作多智能体协作

https://img2024.cnblogs.com/blog/1173617/202503/1173617-20250311021825034-659609980.png
主题规划师思考过程

目标受众:25-35岁,追求品质生活,向往慢生活热门话题:#小众不密旅行 #摄影打卡 #文艺复古风关键痛点:想拍出高级感/避开旅游团/体验本地生活差异化:避开传统攻略,突出体验和氛围感内容采集员数据分析

热门元素分析:- "绝绝子"打卡点提及频率:38%- "人少但惊艳"景点互动率:+45%- "复古风"相关内容点赞:+67%- "本地人带逛"内容转发率:+89%爆款标题关键词:- 高情绪词:绝绝子/神仙/震撼/绝美- 独特性词:隐藏/私藏/绝版/神秘- 感官词:治愈/温柔/浪漫/惊艳文案创作师初稿

标题方案1:「我在大理当了3年民宿房东 这些绝绝子景点90%游客都不知道」标题方案2:「大理|偷偷藏着10个绝美秘境 随手拍都是天青色」标题方案3:「震撼!大理隐藏版民宿景点首曝光 天天对着洱海发呆」团队讨论优化后,最终敲定

标题:「大理绝美古城|本地人才知道的8个隐藏款小众景点 邂逅最惊艳的天青色」开头:"去过25次大理,这次的晴天率100%
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
页: [1]
查看完整版本: [AI/GPT/综述] AI Agent的设计模式综述