我们推出了 Magentic-One,这是我们新的通用多代理系统,用于解决各种领域的开放式 Web 和基于文件的任务。Magentic-One 代表了朝着开发能够完成人们在工作和个人生活中遇到的任务的代理迈出的重要一步。我们还发布了Magentic-一号(在新选项卡中打开)在 Microsoft AutoGen 上,这是我们用于开发多代理应用程序的常用开源框架。
AI 的未来是代理的。AI 系统正在从对话发展到完成工作,这就是我们预计 AI 的大部分价值将大放异彩的地方。这就是生成式 AI 向可以自主下订单和安排送货的代理助理推荐晚餐选项之间的区别。这是从总结研究论文到在全面的文献综述中积极搜索和组织相关研究的转变。
能够代表我们感知、推理和行动的现代 AI 代理在软件工程、数据分析、科学研究和 Web 导航等领域表现出卓越的表现。尽管如此,要完全实现能够动性系统的长期愿景,以提高我们的生产力并改变我们的生活,我们需要通才能动性系统的进步。这些系统必须在人们日常生活中遇到的各种场景中可靠地完成复杂的多步骤任务。
正在推出Magentic-一号(在新选项卡中打开),一个旨在解决此类任务的高性能多面手代理系统。Magentic-One 采用多代理架构,其中首席代理 Orchestrator 指导其他四个代理解决任务。Orchestrator 计划、跟踪进度并重新计划从错误中恢复,同时指示专业代理执行操作 Web 浏览器、导航本地文件或编写和执行 Python 代码等任务。
Magentic-One 在多个具有挑战性的代理基准上实现了具有统计竞争力的性能,无需修改其核心功能或架构。使用AutoGen(在新选项卡中打开),我们流行的开源多代理框架 Magentic-One 受益于模块化和灵活的多代理范式。与整体式单代理系统相比,这种方法具有许多优势。例如,将不同的技能封装在单独的代理中可以简化开发和重用,这与面向对象的编程非常相似。Magentic-One 的即插即用设计进一步支持轻松适应和可扩展性,允许在不改变其他代理或整体架构的情况下添加或删除代理,这与经常在受限和不灵活的工作流程中苦苦挣扎的单代理系统不同。
我们正在为研究人员和开发人员提供 Magentic-One 开源。虽然 Magentic-One 表现出强大的通才能力,但它的性能仍然远非人类水平,并且可能会犯错误。此外,随着代理系统变得越来越强大,它们的风险(例如采取不良操作或启用恶意用例)也会增加。虽然我们仍处于现代代理 AI 的早期阶段,但我们正在邀请社区帮助应对这些公开挑战,并确保我们未来的代理系统既有用又安全。为此,我们还发布了AutoGenBench 系列(在新选项卡中打开),这是一种代理评估工具,具有内置的重复和隔离控件,可严格测试代理基准和任务,同时最大限度地减少不良副作用。
运作方式
Magentic-One 工作基于多代理架构,其中首席 Orchestrator 代理负责高级规划、指导其他代理和跟踪任务进度。Orchestrator 首先创建一个计划来处理任务,在维护的任务分类账中收集所需的事实和有根据的猜测。在计划的每个步骤中,Orchestrator 都会创建一个 Progress Ledger,在其中自我反映任务进度并检查任务是否已完成。如果任务尚未完成,它会为其中一个 Magentic-One 其他代理分配一个要完成的子任务。在分配的代理完成其子任务后,Orchestrator 会更新进度分类账并以这种方式继续,直到任务完成。如果 Orchestrator 发现没有取得足够的步骤进展,它可以更新 Task Ledger 并创建新计划。这在上图中进行了说明;因此,Orchestrator 工作分为一个外部循环(用于更新 Task Ledger)和一个用于更新 Progress Ledger 的内部循环。
总体而言,Magentic-One 由以下代理组成:
- 编排器:负责任务分解和规划、指导其他代理执行子任务、跟踪整体进度并根据需要采取纠正措施的首席代理
- WebSurfer:这是一个基于 LLM 的代理,精通命令和管理基于 Chromium 的 Web 浏览器的状态。对于每个传入的请求,WebSurfer 都会在浏览器上执行一个操作,然后报告网页的新状态 WebSurfer 的操作空间包括导航(例如访问 URL、执行 Web 搜索);网页操作(例如,单击和键入);和阅读动作(例如,总结或回答问题)。WebSurfer 依赖于浏览器的可访问性树和提示执行其操作的标记集。
- FileSurfer:这是一个基于 LLM 的代理,它命令基于 markdown 的文件预览应用程序读取大多数类型的本地文件。FileSurfer 还可以执行常见的导航任务,例如列出目录的内容和导航文件夹结构。
- Coder:这是一个基于 LLM 的代理,通过其系统提示专门用于编写代码、分析从其他代理收集的信息或创建新工件。
- ComputerTerminal:最后,ComputerTerminal 为团队提供了对控制台 shell 的访问,Coder 的程序可以在其中执行,并且可以安装新的编程库。
Magentic-One 的代理共同为 Orchestrator 提供了解决各种开放式问题所需的工具和功能,以及自主适应动态和不断变化的 Web 和文件系统环境并采取行动的能力。
虽然我们用于所有代理的默认多模态 LLM 是 GPT-4o,但 Magentic-One 与模型无关,可以合并异构模型以支持不同的功能或在完成任务时满足不同的成本要求。例如,它可以使用不同的 LLM 和 SLM 及其专用版本来支持不同的代理。我们建议为 Orchestrator 代理使用强推理模型,例如 GPT-4o。在 Magentic-One 的不同配置中,我们还尝试将 OpenAI o1-preview 用于 Orchestrator 和 Coder 的外部循环,而其他代理继续使用 GPT-4o。
评估
为了严格评估 Magentic-One 的性能,我们引入了 AutoGenBench,这是一个开源的独立工具,用于运行代理基准测试,允许重复和隔离,例如,控制随机 LLM 调用的方差和代理在世界上采取行动的副作用。AutoGenBench 有助于代理评估并允许添加新的基准。使用 AutoGenBench,我们可以在各种基准测试中评估 Magentic-One。我们选择基准测试的标准是,它们应该涉及复杂的多步骤任务,至少有一些步骤需要规划和使用工具,包括使用 Web 浏览器对真实或模拟网页进行操作。我们在这项工作中考虑了满足此标准的三个基准:GAIA、AssistantBench 和 WebArena。
在下图中,我们显示了 Magentic-One 在三个基准上的性能,并与独立运行的 GPT-4 以及根据截至 2024 年 10 月 21 日的公开排行榜的每个基准表现最好的开源基准和非开源基准特定基准进行了比较。Magentic-One (GPT-4o, o1) 在 GAIA 和 AssistantBench 上都实现了与以前的 SOTA 方法具有统计可比性的性能,并且在 WebArena 上也具有竞争力的性能。请注意,GAIA 和 AssistantBench 有一个隐藏的测试集,而 WebArena 没有,因此 WebArena 结果是自我报告的。总之,这些结果将 Magentic-One 确立为用于完成复杂任务的强大通才代理系统。
风险与缓解措施
像 Magentic-One 这样的代理系统代表了世界上拥有 AI 系统的机遇和风险的阶段性转变。Magentic-One 与为人类设计并由人类居住的数字世界交互。它可以采取行动,改变世界状况,并导致可能不可逆转的后果。这带来了固有且不可否认的风险,我们在测试期间观察到了新出现的风险示例。例如,在开发过程中,错误的配置会阻止代理成功登录到特定的 WebArena 网站。代理尝试登录该网站,直到反复尝试导致帐户被暂时暂停。然后,代理尝试重置帐户的密码。更令人担忧的是,在少数情况下——除非另有提示——特工偶尔会试图招募其他人寻求帮助(例如,通过在社交媒体上发帖、给教科书作者发电子邮件,或者在一个案例中,起草向政府实体提交信息自由请求)。在每种情况下,代理都失败了,因为他们无法访问必要的工具或帐户,和/或被人类观察者阻止。
根据 Microsoft 对负责任 AI 的承诺,我们努力在部署之前识别、衡量和缓解 Magentic-One 的潜在风险。特别是,我们对潜在的有害内容、越狱和快速注入攻击进行了红队练习,发现我们的设计没有增加风险。此外,我们还提供了有关如何安全使用 Magentic-One 的警告通知,以及以最大限度地降低风险的方式使用 Magentic-One 的指南、示例和适当的默认值,包括如何将人带入循环进行监控和监督,并确保所有涉及代码执行的示例,以及我们的评估和基准测试工具在沙盒 docker 容器中运行。
我们建议将 Magentic-One 与具有强对齐和生成前后过滤的模型一起使用,并在执行期间和之后密切监控日志。事实上,在我们自己的使用中,我们遵循最小权限和最大监督的严格原则。我们承认,将代理 AI 的潜在风险降至最低需要新技术,并且在了解这些新出现的风险和开发技术方面需要进行大量研究。我们将继续与社区分享我们的学习成果,并继续通过最新的安全研究来发展 Magentic-One。
我们在代理、安全和负责任的 AI 研究中看到了有价值的新方向:在预测代理系统的新风险方面,代理可能会受到与在公共网络上操作时针对人类 Web 冲浪者相同的网络钓鱼、社会工程和错误信息攻击。在跨领域缓解措施方面,我们预计一个重要的方向是让代理了解哪些操作很容易逆转,哪些操作可以通过一些努力逆转,哪些操作无法撤消。例如,删除文件、发送电子邮件和提交表单不太可能轻易撤消。当面临高成本或不可逆转的行动时,系统应该设计为暂停并寻求人工输入。
总而言之,在这项工作中,我们介绍了 Magentic-One,一种通用多智能体系统代表了能够解决开放式任务的智能体系统的重大发展。
有关更多信息、结果和讨论,请参阅我们的技术报告。