多智能体协作(Multi-agent collaboration): 多个 AI 智能代理一起工作,分配任务并讨论和辩论想法,以提出比单个智能体更好的解决方案。
原话
AI Agent作为决定因素,常常被提及和讨论。有很多咨询报告。Agent怎么样,人工智能的未来,等等,等等。但我想具体一点,和你分享我对的广泛的Agent设计模式的理解:这是一个非常杂乱、混乱的领域。大量的研究,大量的开源。发生了很多事情,但我试图尽量更具体地分类一下,究竟发生了什么?1. 反思/Reflection这是我认为我们许多人在用的一种工具。它就是好用。我认为它更广泛地被认可,但实际上效果很好。我认为这些是相当强大的技术。当我使用它们时,我几乎总是能让它们运作良好。
在规划方面,你知道,对于那些还没有大量使用规划算法的人,我觉得很多人都在谈论ChatGPT的时刻,你会感到,哇,从未见过这样的东西。我认为你没有使用规划算法。许多人将拥有一种人工智能代理。哇,我无法想象一个AI Agent 会做得这么好。所以我进行过现场演示,期间出现了一些故障,但 AI Agent 成功绕过了这些故障。我实际上经历过不少这样的时刻,哇,你不能相信这个AI系统居然是自主完成的。但我从 hugging face 论文中改编了一个例子。你对 AI Agent 说,请生成一幅图像,图中有女孩在阅读,女孩正在读一本书,而提供的图中男孩与需要绘制的女孩的姿势相同,请用jpeg绘制我们所看到的新图像。所以,今天用人工智能代理给个这样的例子,你可以自己决定。我需要做的第一件事是确定那个男孩的帖子,然后,你知道,找到合适的模型,也许在 Hugging Face 上提取帖子。然后接下来需要找到后图像模型来合成一张女孩的图片,按照以下指示,然后使用图像转文本,最后再将文本转为语音。今天我们有一些代理,我不想说他们工作得很可靠。你知道,它们有点挑剔。它们并不总是有效,但当它有效时,实际上是相当惊人的。但在代理组中,有时你也可以从早期的失败中恢复。所以我发现自己在一些工作中已经开始使用研究代理。好吧,这是一项研究,但我不想自己去搜索,也不想花太多时间。我应该把这个发给他们的研究代理,过几分钟回来看看有什么进展,有时候会有什么结果,对吧?有时候也没有很好的效果。但这已经是我个人工作的一个部分了。
复制代码
Multi-Agent Collaboration/多代理协作
最后的一种设计模式,多Agent协作。这是一件有趣的事情,但它的效果比你想象的要好得多。但左边是来自一篇名为 chat Dev 的论文的截图,该论文是完全开放的,实际上是开源的。许多人看到闪亮的社交媒体公告、Demo演示、Devon。Chat Dev 是开源的,在我的笔记本电脑上运行。Chat Dev所做的就是一个多Agent系统协作的例子。在这个系统中,你可以提示一个LLM,有时模拟软件公司的首席执行官,有时模拟设计师,有时作为产品经理,有时作为测试工程师。以及你通过提示LLM构建了一群代理,告诉他们你现在是一个CEO,你现在是软件工程师。让他们(Agent们)合作,进行深入的对话。所以,如果你告诉它,请开发一个游戏,开发一个好的go moki的游戏。他们实际上会花你几分钟时间编写代码,测试它,迭代,然后生成,像是令人惊讶的复杂程序,但并不总是有效。我用过它。有时候它不起作用。有时候真令人惊讶。但这项技术确实在不断进步。而且,正好是其中一种设计模式,结果是多智能体辩论,其中有不同的智能体。比如,可以让 Cha GPT和Gemini互相辩论,这实际上也会带来更好的表现。所以,让多个 Agent一起工作,是一种强大的设计模式。
复制代码
小结 :Agent 设计模式 & 结论
所以,简单总结一下,我认为这些是我看到的模式。我认为,如果我们在工作中使用这些模式,我们中的很多人可以在失去的过程中迅速获得实践。我认为 【推理 Agent】设计模式将会很重要。这是我预期的最后一张幻灯片。因此,由于代理工作流程,人工智能能够执行的任务将在今年大幅扩展。而实际上让人们难以适应的一件事是,当我们提示某人时,他们希望立即回应。事实上,十年前,当我在进行讨论时,我们称之为【大盒子搜索】类型的长提示。你知道我未能成功推动这一点的原因之一是,当你进行网络搜索时,你希望在半秒内得到回应,对吧?这就是人性。人们都喜欢那种即时抓取、即时反馈。但对于许多现有的工作流程,我认为我们需要学会将任务交给人工智能代理,并耐心等待几分钟,甚至几个小时的回复。但就像我见过很多新手经理把某件事交给某人,然后五分钟后就去查看一样,对吧?也是如此。我们也需要对一些我们的人工智能代理进行这样的操作。我觉得我总是听到一些lauand。然后,一个重要的trenfast hocongenerators很重要,因为有了这些代理,我们可以反复进行工作。所以这个元素正在生成令牌,以便能够生成令牌的速度比任何人阅读都要快,这真是太棒了。我认为,即使是稍微低质量的语言模型快速生成更多的标记,可能会比更好的语言模型慢速生成的标记产生更好的结果。也许这有点争议,因为它可能让你在这个循环中多转几次,就像我在第一张幻灯片上展示的gpc和代理架构的结果以及candidellee一样。我真的很期待cfive、clock 4、gpt5、Gemini I 2.0以及所有这些其他的one、four型号在架构中的表现。我感觉如果你期待在gpt5零样本上运行你的项目,你可能会发现某些应用的性能实际上比你想象的更接近那个水平,尤其是在进行推理时。但在早期的模型上,我认为这是一个重要的趋势。老实说,通往AGI的道路感觉像是一段有明确目的地的旅程。但我认为这种代理工作队伍可以帮助我们在这段漫长的旅程中迈出小小的一步。