OpenManus 核心作者分享：如何在三小时完成的 Agent 框架

Noticias AIPublicado hace 3 meses Sharenet.ai

379 0

本周，Agent（智能体）技术以前所未有的速度席卷科技圈，这股热潮的背后，是推理模型能力的飞跃式发展。

3月5日晚，Manus 惊艳亮相，其强大的 Demo 演示瞬间引爆全网。仅仅两天后，国内团队 DeepWisdom MetaGPT 和 CAMEL AI 各自推出了开源项目 OpenManus 和 OWL，迅速复刻了 Manus 的核心功能，再次点燃了网络和 GitHub 社区的热情，引发了广泛而深入的讨论。

尤其值得关注的是，OpenManus 团队凭借 MetaGPT 长期积累的技术底蕴，仅用 1 小时便完成了核心系统的搭建，并在短短 3 小时内实现项目上线。这一惊人的速度不仅为 OpenManus 在 GitHub 上迅速斩获过万 Star，更使其成为行业内外瞩目的焦点。

3月8日上午，锦秋基金邀请 OpenManus 团队的三位核心成员进行了一场深度分享，旨在剖析 OpenManus 的技术实现原理，并探讨 Agent 技术未来的发展趋势。

参与本次分享的三位嘉宾均是 Agent 领域的资深专家：洪思睿，MetaGPT 论文（ICLR 2024 Oral）与数据解释器（Data Interpreter）论文的第一作者，同时也是 AFLOW 论文（ICLR 2025 Oral）的作者之一，其研究成果多次在 TPAMI、ICLR 等国际顶级学术会议和期刊上发表。梁新兵，OpenManus 的核心开发者。向劲宇，OpenManus 的合作者，同时也是 AFlow 和 SPO 的第一作者。

在分享中，三位嘉宾对 Agent 技术的未来发展方向，以及行业面临的挑战，提出了以下前瞻性的思考：

随着大型语言模型（LLM）能力的持续增强，Agent 在诸多领域的应用成功率将显著提升，尤其是在 QA 问答、HumanEval 代码能力评测和 MBPP Python 编程问题这类相对标准化的任务上，单一模型已经能够展现出卓越的解决能力。
然而，现实世界中存在大量复杂且具有长尾效应的问题，例如复杂的机器学习任务、代码缺陷修复，以及需要整合多方信息才能为用户提供有效答案的搜索组合问题。这些问题仍然需要大量的技术创新来提升 Agent 的表现，尤其是在解决模型“幻觉”问题方面。
Agent 在任务规划能力上的进步，既依赖于模型自身能力的提升，也离不开外部结构的辅助。更精巧的架构设计，能够帮助 Agent 更好地理解和分解复杂任务。
随着 Agent 可使用的工具种类日益丰富，如何让 Agent 在面对同一任务时，从众多功能相似的工具中做出精准决策，选择最合适的工具，并避免错误选择，将成为新的技术挑战。
Agent 的记忆管理，核心问题在于如何在成本和效率之间找到平衡。直接使用完整的记忆信息，虽然当前的模型可以处理，但会导致处理时间和成本显著增加，严重影响用户体验，而非性能下降。
目前，解决记忆管理问题的一种有效方法是采用多智能体架构或工具辅助策略。例如，OpenManus 等框架通常会利用规划工具预先生成任务计划，将复杂任务分解为多个子任务，每个子任务之间的记忆不完全共享，并在任务执行完毕后进行总结或压缩处理，从而降低计算成本。
虽然在基准测试中，我们能够明确判断 Agent 是否正确完成了任务，但在实际应用场景中，如何量化评估 Agent 完成任务的准确性或质量，仍然是一个难题。
Agent 商业化的关键在于能否将真实场景中的任务和用户需求做到极致，包括提供高度个性化的功能，只有这样才能吸引用户持续使用 Agent。
大量应用开发者都在积极探索 Token 消耗优化方案，例如在工程层面采用缓存机制或记忆压缩技术，以尽可能减少每次 API 调用时需要传递的上下文长度，降低成本。
未来，通过整合多个小型模型的能力，有望实现媲美甚至超越大型模型的效果，并在推理速度、Token 消耗和成本方面取得显著优势。

以下是本次分享内容的详细解读。

01 一夜爆红 GitHub，OpenManus 的技术速成之道

梁新兵： “3月6日下午五点多，组会结束后，向劲宇提议，通过几个关键步骤，我们或许能够复现 Manus 的效果。”

回忆起 OpenManus 项目启动的契机，梁新兵这样说道。最初看到 Manus 的演示视频时，视频中流畅的交互体验给他留下了深刻的印象，直觉判断 Manus 应该是一个单智能体系统。 “一个单智能体竟然能达到如此出色的效果，它是如何进行任务规划和实现的？这让我感到非常震惊。”

在随后的交流中，团队开始探讨 Manus 的技术方案。Manus 作为一款通用 AI 智能体产品，其卓越的用户体验令人印象深刻。但从技术角度分析，Manus 实际上是巧妙地融合了许多业内共识的核心基础技术。最终，团队推断 Manus 采用了外部规划机制来协调多智能体协同工作。

晚饭过后，OpenManus 的开发工作正式启动，整个过程耗时约三个小时。 “当时我们并没有预料到 OpenManus 会如此迅速地走红。” 梁新兵坦言。

Manus 多智能体架构解析：规划与执行的精妙协同

Manus 的核心在于其多智能体系统架构。它首先利用 PlanningTool 规划工具对用户需求进行任务分解，生成一个包含多个线性子任务的详细计划。随后，系统按顺序执行每个子任务，并动态分配给最适合的 Agent。Agent 在执行子任务的过程中，采用 ReAct 循环（Reason and Act，思考与行动）模式，不断调用工具以完成任务。

规划能力和工具使用能力是 Manus 的两大支柱。 Manus 将 PlanningTool 规划工具引入多智能体框架，这一创新至关重要。正如 Claude-3.7 模型在 SWEBench 代码能力评测中取得的突破性进展所印证的那样，性能的提升一部分归功于模型自身的进步，另一部分则得益于更有效的任务规划。MetaGPT 团队此前在 Data Interpreter （数据解释器）项目中的研究也表明，规划对于解决现实世界中的复杂问题至关重要且行之有效。因此，将规划能力融入多智能体乃至单智能体框架，已成为 Agent 技术发展的重要方向。

团队推测，Manus 可能采用了 Claude 的模型，并结合了自身进行后训练的模型，并在工程层面进行了大量的优化，这显著提升了其在不同场景下的工具使用能力。

OpenManus 的设计理念：极简、可插拔与强大的规划能力

OpenManus 的设计思路可以用 “极简” 和 “可插拔” 两个关键词来概括。梁新兵表示，最初的设计理念是构建一个极其简洁的 Agent 框架，通过可插拔的工具（Tools）和提示词（Prompt）的灵活组合，来实现 Agent 的各种功能。基于这一思路，团队迅速开发出了一个完整的 Agent 迷你框架。

提示词引导和工具使用是决定 ReAct Agent 效果的关键因素。在 OpenManus 中，Prompt 负责控制 Agent 的整体行为逻辑，Tools 则定义了 Agent 的行动空间。两者协同工作，完整地定义了一个 ReAct Agent。在 ReAct Agent 的基础上，OpenManus 团队还基于 Function Call 技术实现了一种轻量级的 ToolCall Agent，使其能够以更结构化的方式选择和执行工具。OpenManus 正是基于 ToolCall Agent 构建的。

“可插拔” 的设计带来了极大的灵活性和可扩展性。开发者可以将不同场景下的 Tools 自由组合，快速创建新的 Agent。工具的定义也非常便捷，无需编写复杂的内部逻辑，只需简单修改 Agent 的动作空间（Tools）即可。Tools 本身也应具备良好的可组合性，而 OpenManus 的目标正是将抽象层做得更加简洁清晰。通过提供丰富的工具集，并支持多种 Agent 灵活装备不同的工具组合，OpenManus 能够轻松扩展在各种应用场景下的能力。

规划能力同样至关重要。 OpenManus 继承了 Manus 的规划优势，通过 PlanningTool 实现任务分解，从而有效应对现实世界中的复杂问题。

OpenManus 工作流程：动态任务分配与协同执行

OpenManus 的工作流程清晰高效。当接收到用户需求后，系统首先使用 PlanningTool 生成一个包含多个线性子任务的计划，并将计划写入一个 markdown 文件中。随后，OpenManus 解析该计划，并依次取出每个子任务。在执行每个子任务时，系统会动态地将任务分配给最适合处理该任务的 Agent。这些 Agent 配备了不同的工具集，在处理不同类型的任务时各有所长。

Agent 的动态分配是 OpenManus 的一大亮点。这种灵活的分配机制使得系统能够根据任务的具体需求和上下文，选择最合适的 Agent 来执行，从而提高了任务处理效率和质量。目前，OpenManus 采用正则表达式匹配的方式进行 Agent 的任务分配。如果任务无法匹配到特定的 Agent，则会使用默认配置的 Agent 来执行。

未来，OpenManus 团队也在考虑引入大型语言模型（LLM）来负责任务到 Agent 的分配。然而，每次执行任务都使用 LLM 进行意图识别和 Agent 分配，无疑会增加计算成本和延迟。

OpenManus 的未来发展方向：持续优化与社区共建

为了进一步提升 OpenManus 的性能和用户体验，团队计划进行以下重点工作：

增强规划能力：持续优化 PlanningTool，使其能够处理更复杂的任务分解和规划场景。
引入标准化评测：采用 GAIA/TAU-Bench/SWE-Bench 等行业基准评测集，对 OpenManus 的性能进行持续评估和优化。
拓展模型适配：将模型支持从 Claude-3-5 扩展到 DeepSeek V2.5 等更多模型，以优化低成本应用场景。
实现容器化部署：简化 OpenManus 的安装和使用流程，降低用户的使用门槛。
丰富示例库：增加更多实用案例，并对成功和失败案例进行深入分析，帮助用户更好地理解和使用 OpenManus。
前后端开发：开发用户友好的 Web UI 界面，提升用户交互体验。
RAG 模块集成：集成检索增强生成（RAG）模块，为 Agent 提供外部知识库，增强其知识获取和推理能力。

梁新兵表示，Manus 在产品交互方面做得非常出色，有很多值得学习借鉴之处。目前 OpenManus 的效果还相对有限，团队尚未进行专门的效果调优。

OpenManus 的初期目标是达到与原始 Manus 相同的效果。长远来看，团队希望依托庞大的开源社区，不断优化 Computer Use（计算机使用）、Browser Use（浏览器使用）和 Planning Use（规划使用）等核心能力，以及工具调用能力，从而推动 OpenManus 实现更高的智能涌现。

02 MetaGPT 团队：多年技术沉淀，三小时复刻 Manus

洪思睿： “事实上，我们的团队在 AI 场景的自动化和智能体框架领域已经积累了多年的技术经验。”

MetaGPT 团队长期致力于 Agent 技术的研究和开源，在过去两年多的时间里，持续将团队的研究成果开源，并形成高质量的学术论文和技术报告，积极贡献社区。这些成果包括：

MetaGPT：开创性的多智能体元编程框架，奠定了多智能体协同的核心思想。
Data Interpreter：强大的数据科学 Agent，展现了 LLM 在数据分析领域的巨大潜力。
AFlow：自动化 Agent 工作流生成框架，实现了 Agent 组合的自动探索与优化。
FACT：上下文重写技术，有效提升了多事实检索的准确性。
SELA：基于树搜索增强的 LLM Agent，应用于自动化机器学习，显著提升了 AutoML 的性能。
Self-Supervised Prompt Optimization：自监督提示词优化方法，提升了提示词工程的效率和效果。
SPO (https://www.modelscope.cn/studios/AI-ModelScope/SPO): 开源的提示词优化工具，适用于少样本或无明确评分的场景。
Atom of Thoughts for Markov LLM Test-Time Scaling：原子思维方法，提升了 LLM 在马尔可夫决策过程中的推理能力。

MetaGPT 框架：多智能体协同的基石

MetaGPT 框架于 2023 年开源，是多智能体元编程领域的先驱。MetaGPT 团队认为，尽管当时的大型模型在通用任务上已展现出强大的能力，但要有效解决人类社会中复杂的问题，仍然需要将问题进行原子化拆解，并融入更符合人类解决问题习惯的流程。

“大家可能对标准操作流程（SOP）的概念比较熟悉。通过将 SOP 分配给不同的角色，并充分利用各角色的专业知识和工具能力，我们可以显著提升大型模型在复杂问题上的表现。” 洪思睿解释道。MetaGPT 框架正是基于这一理念，提出了多智能体架构，并嵌入 SOP，旨在实现智能体的元学习（Meta Learning）或元编程（Meta Programming）能力。

这种方法在 HumanEval 和 MBPP 等基准测试中取得了显著的提升效果，超越了当时的 GPT-4 模型。MetaGPT 团队还在一些典型的软件开发应用场景中验证了这一思路，例如经典的 2048 小游戏和贪吃蛇游戏。与同期其他开源框架相比，MetaGPT 的整体成功率明显更高。

Data Interpreter：数据科学领域的智能助手

在 MetaGPT 框架和智能体设计的基础上，团队意识到智能体还需要更强大的规划能力和工具使用能力，尤其是在解决机器学习或数据建模问题时，对工具使用的要求更加突出。

一方面，机器学习/数据建模流程通常可以借助大型模型的能力进行规划，大型模型可以更专注于任务的执行和实现。另一方面，在处理大型表格数据时，由于大型模型的上下文长度限制，无法直接输入全部数据。因此，需要智能体通过代码形式与数据进行交互。基于这些考虑，MetaGPT 团队于 2023 年下半年开始探索规划能力和工具使用能力，并推出了 “数据解释器”（Data Interpreter）这一创新成果。

在 Devin 等项目引发广泛关注的时期，MetaGPT 团队发现 Data Interpreter 在数据建模/机器学习等任务上已经达到了初级数据分析师的水平。用户只需将数据交给 Data Interpreter，它就能独立完成从数据预处理到 NLP/CV 模型训练等复杂的 AI 任务。

SELA：增强 Agent 的调试与反馈能力

为了进一步提升 Data Interpreter 的性能，MetaGPT 团队认为需要增强智能体的调试能力和对实验结果的反馈机制。为此，团队开发了名为 “SELA” 的工作。SELA 在 Data Interpreter 的基础上引入了蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）方法，使智能体能够通过自主实验的方式，进行机器学习任务的自动优化，在推理过程中进行多样性探索，并根据执行结果反馈调整策略和求解步骤，从而显著提升整体任务表现。

通过 SELA 的增强，Data Interpreter 在机器学习任务上的能力得到了显著提升，达到了与自动化机器学习（AutoML）工具相当的水平，并超越了当时优秀的开源项目（如 AIDE）。

AFlow：自动化 Agent 工作流生成

与此同时，MetaGPT 团队还基于蒙特卡洛树搜索（MCTS）技术，在提升大型模型推理能力方面进行了探索，并研发了 AFlow 工作。与固定 SOP 的方案不同，AFlow 能够为不同的任务自动搜索最合适的解决方案流程。

AFlow 的创新之处在于：如何针对不同问题提升解决效果？AFlow 旨在使系统能够根据问题反馈自主探索最优的智能体组合（拓扑结构），最终使得解决问题的智能体组合更具动态性，且规模无需预先设定。

AFlow 通过定义问题原子化的搜索空间，并利用蒙特卡洛方法探索和优化多智能体的组合拓扑结构。这项工作在六个数据集上均取得了 SOTA（State-of-the-art，最先进）的结果，并获得了 ICLR 2025 的 Oral 认可，充分证明了其技术领先性。

FACT：提升 Agent 的记忆管理能力

MetaGPT 团队还注意到，随着智能体解决问题步骤的增加，其记忆（Memory）体量也会随之增大。因此，如何有效管理智能体在整个问题求解过程中的上下文信息，成为了亟需解决的问题。

为此，团队提出了名为 “FACT” 的工作，通过多针查找机制提升大型模型在事实查找方面的准确率，并在问答（QA）任务中展现了显著效果。这项工作也获得了 NAACL 的录用。

此外，在去年 9 月份左右，MetaGPT 团队还在 SWE-Bench 代码能力评测平台上进行了探索。他们发现，在代码修复等问题上，Agent 需要依赖文件定位与查找，以及计算机使用能力，同时也对工具使用能力和规划能力提出了更高的要求。许多研究工作采用多智能体方式来解决这类长链复杂推理过程。因此，MetaGPT 团队也在 SWE-Bench 的任务中加入和优化了文件定位、文件查找等能力，这也成为了 OpenManus 代码的基础。查看 OpenManus 的代码可以发现，其中不少工具都与代码修复和定位相关。

SPO：提示词优化的利器

SPO 是一套强大的提示词优化工具。与传统的需要大量数据集的优化方法不同，SPO 适用于没有准确评分或数据集有限的场景。例如，在撰写小红书文案或进行 SEO 优化时，用户可能只有少量满意的样例。SPO 能够在这种有限样例条件下进行有效的提示词优化。该工具已开源，并在国内魔搭平台和 Hugging Face 上获得了良好的用户反馈。

AOT：原子思维助力信息推理

AOT（原子思维）方法主要用于问答类信息推理和整合任务，例如从不同段落整合信息进行阅读理解。这项工作目前已获得 35 万的浏览量，未来将整合到 MetaGPT 框架中，进一步提升其信息处理能力。

03 Agent 的现实挑战：十个核心问题剖析

Q1：大型模型能力提升后，是否能完全解决复杂问题？

洪思睿： “随着大型模型能力的提升，许多问题的解决成功率确实会提高，但问题本身并不会消失。” 例如，在 QA 问答、HumanEval 和 MBPP 这类相对标准化的单函数代码生成问题上，目前的单一模型已经能够表现得非常出色。

从去年到今年，大型模型在这些问题上的成功率已经接近实际应用水平。但同时也应看到，人类社会仍然存在大量极其复杂且具有长尾效应的问题，包括机器学习、代码修复，以及需要通过搜索组合结果才能提供给用户的问题。这些领域仍然需要大量的技术创新来提升大型模型的表现，尤其是在解决模型“幻觉”问题方面。

Q2：大型模型能力提升与 Agent 技术进步之间是何种关系？

向劲宇： “Agent 与大型模型可能是一种垂直或正交的关系。框架本身的提升会因为模型能力的提升而获得更多功能，两者并不冲突。”

Agent 框架通过扩展更多工具，使得大型模型能够与物理世界或更广泛的环境进行交互。同时，大型模型自身的进步也会增强其推理和规划能力。两者可以相互结合使用，也可以独立发展。

“这种关系是互补而非冲突的。” 向劲宇总结道。

Q3. 当前的 Foundation Agent Model 发展到了什么水平？

向劲宇： “最近我恰好关注到一些相关研究工作，虽然可能不完全属于 Foundation Agent Model 范畴。”

他提到了 Pan Jiayi 团队在 SWE-GYM 项目中进行的尝试，该项目旨在解决代码库修复问题。他们利用基于 Claude 或 GPT-4o 等模型运行后产生的数据，并借助 Openhands 等框架采集 Agent 运行过程中的轨迹数据。这些轨迹数据既包含成功案例，也包含失败案例。他们将收集到的轨迹数据重新用于训练 Qwen 开源模型，并观察到 Qwen 模型在经过这种训练后，代码修复能力得到了显著提升。相关研究细节已在论文中详细阐述，研究内容扎实可靠。

“目前这类工作的泛化难点在于，例如在 SWE-Bench 评测中，我们可以明确判断一个任务是否正确完成，但在实际应用场景中，很多情况下我们很难量化评估任务完成的准确性或质量（例如，撰写一篇小说或笑话）。” 向劲宇指出， “就像在现实工作场景中，让实习生和资深员工同时完成一项工作，要对他们的表现进行评分时，其实很难客观判断，需要基于很多主观的业务逻辑和标准来确定。这种开放任务下的评估反馈自动设计，也是我们未来探索的一个重要方向。”

Q4. Agent 在规划（Planning）能力上的进步，是否主要依赖于大型模型本身？

向劲宇： “目前在规划方面的进步，一方面取决于模型自身能力的提升，另一方面也离不开外部结构的辅助，即在 Agent 的层面加入更复杂的结构进行辅助规划。” 例如，早期的 “Tree of Thought”（TOT，思维树）工作，通过引入额外的结构，显著增强了模型在任务推理过程中的表现。在规划领域，同样存在类似的外部结构辅助相关研究工作。

Q5. Agent 使用外部工具的难点是什么？

梁新兵： “目前在 OpenManus 中，我们主要还是使用一些现有的开源工具，例如 Cloud Computer 和 Browser 等。其他团队在 Browser 使用方面的研究表明，仅凭这两个工具基本上就能完成许多任务，已经初步形成了 Manus 的雏形。”

此外，关于 “如果 Agent 想要使用某个工具，但目前没有这样的工具时” 这个问题，梁新兵表示，团队也设想了未来可能会增加一种赋予 Agent 自行创建工具的能力。 “当 Agent 需要工具来完成某项任务时，如果当前环境中没有合适的工具，它可以自行创建并使用。这将进一步增强 Agent 的能力。”

洪思睿： “我认为大型模型或 Agent 使用工具本身并不新奇。但是，随着工具数量的逐步增加，技术难点也随之而来：如果有大量功能相似的工具，Agent 在解决同一任务时，如何做出准确决策，选择最合适的工具，并避免决策错误？”

此外，如果不是使用标准化的工具接口，而是使用自定义的工具，还可能面临另一个问题：工具的参数定义不合理或不够明确，这将导致大型模型在生成调用工具决策时容易出错，进而影响工具的执行效果。这些都是工具使用环节中需要解决的关键问题。

“另一个难点在于，不仅仅是工具的选择和使用本身，而是上下文中可能包含很多细节信息。例如，用户同时打开多个网页时，这些网页上的信息和数据（比如某个简历上的时间、另一个网页中提及的事件起始时间），Agent 在整合生成最终结果时可能会造成混淆或错误。如何确保 Agent 在使用工具时准确地处理这些细节信息，也是实际应用中需要重点解决的问题。” 洪思睿补充道。

Q6. MCP 等协议在工具使用方面会成为主流吗？

梁新兵： “MCP 协议目前正在逐渐成为主流。”

工具使用能力，实际上取决于模型本身是否具备良好的工具使用能力。因为某些模型可能并不具备工具使用能力，或者这方面能力较弱，在使用工具时效果就会受到限制。因此，工具协议的普及与模型自身具备较强的工具使用能力密切相关。

Q7. Agent 在处理海量上下文（Memory 管理）时有哪些进展和难点？

洪思睿： “目前大家可能已经了解一些相关研究工作，例如 MemoryGPT 或开源项目 Mem0，它们都针对较长的上下文和 Agent 的记忆管理进行了一些优化和处理。”

例如，MemoryGPT 对一定长度的上下文进行总结，这是一种非常朴素但有效的思路。Mem0 则在记忆更新过程中主动使用工具，涉及记忆删除、记忆更新和新增等操作。

“目前，Agent 在处理复杂、长程任务（例如浏览网页时，网页信息可能非常长）时，如何压缩上下文并存储到记忆中，是一个极具挑战性的问题，并且要确保压缩后关键的信息不会被修改或遗漏。” 洪思睿指出， “早期的一些研究工作表明，记忆会随着时间或任务步骤的增加而消退。”

另一方面，人类的记忆存在多种类型，不仅仅是语义信息的记忆，还包括工具使用时产生的程序性记忆，以及事件关联关系的记忆。学术界也针对不同的记忆类型分别进行优化。

以上讨论的是单个 Agent 的记忆管理情况。而在多智能体系统中，可以更巧妙地利用记忆。除了在一定程度上隔离记忆外，人们还希望复用其他 Agent 在解决问题过程中产生的记忆，以增强自身处理特定任务的经验。此外，Agent 还可以不断进化，复用群体解决问题的经验，最终形成一种群体智能。

梁新兵： “记忆管理的核心问题在于成本。” 如果不考虑记忆管理，不做压缩和任何处理，直接使用完整的记忆，目前的大型模型仍然可以处理，但这带来的问题并非性能下降，而是处理时间和成本会显著增加，严重影响用户体验。

因此，记忆管理问题涉及工程层面的优化。目前已经有一些公司或组织在尝试优化记忆管理方案。

“当前解决记忆管理问题的一种方法是采用多智能体或工具辅助的方式。例如，在 OpenManus 等框架中，通常会通过规划工具先生成任务计划，将复杂任务分解为多个子任务，每个子任务之间的记忆不完全共享，并在任务执行完毕后进行总结或压缩处理。” 梁新兵解释道。

Q8. Agent 在商业化落地方面最终会比拼什么？

洪思睿： “我认为最重要的是将真实场景中的任务和效果，包括个性化的功能，做到极致。” 目前学术界的许多研究工作，无论是针对 SWEBench、GAIA 还是其他的 Agent 测试任务，任务成功率仍然有限。如果将这种相对微小的任务标准对应到真实的商业场景中，面对不同用户和不同难度的问题，目前的 Agent 成功率还相当受限。

“因此，无论是编程任务，还是数据收集和报告生成任务，如果能够针对各种各样的用户问题和场景做到极致，将成功率提升到令人满意的程度，真正实现 Agent 达到人们当前所期望的行动能力，我相信用户会持续使用 Agent，并将其作为日常的助手和工具。” 洪思睿强调。

Q9. 当前 Manus、OpenManus 等 Agent 成本较高，如何进一步降低成本、提高效率？

洪思睿： “首先，大量的应用厂商，包括我们自己在内，都会对 Token 消耗进行优化。无论是在工程层面通过缓存，还是记忆压缩技术，目标都是尽可能减少每次 API 调用时的上下文长度，这是在应用层面持续优化的方向。”

“此外，未来大家很可能会部署大量小型模型，基于已有数据进行微调或强化学习，专注于优化某些特定节点或工具的使用能力。通过集成多个小型模型的能力，有望实现完整甚至超越大型模型的效果。这样就可以在推理速度、Token 消耗和费用方面取得显著的成本优势。” 洪思睿补充道。

Q10. 如何评估多智能体的商业前景？

洪思睿： “首先，我们认为在代码生成领域，无论是单个 Agent 还是多智能体系统，都有望更早实现商业落地。”

“我们发现，大量用户虽然编程水平一般，但了解一些基本概念，当他们想要自行搭建个人网站或简单的应用程序时，非常需要智能体或大型模型的辅助。如果用户直接使用大型模型，可能需要多轮交互和繁琐的调试过程。但如果使用产品化的智能体系统，这个过程就能变得更加轻松。用户可能只需要花费 15 分钟或半小时，甚至包括后续的需求变更，也能快速获得令人满意的网站或应用。”

“因此，我认为在真正有效解决用户实际需求方面，多智能体的商业前景是明确且强烈的，代码生成也是 Agent 技术目前能够较好解决的场景。目前用户在这方面的付费意愿也相对较高。” 洪思睿总结道。

04 Agent 商业化：代码生成率先破局

Q1. 能否简单介绍一下 MGX 这款多智能体产品？

洪思睿： “如果大家熟悉 MetaGPT，就会了解 MGX 是一款多智能体同时在线协作，帮助用户解决问题的产品。用户只需像使用 ChatGPT 一样输入需求，便会有一个强大的智能体对任务进行拆解，再将任务分发到不同的智能体去执行。”

“整个产品目前主要专注于代码生成领域。例如，用户想要创建个人网站、游戏或数据分析应用程序等，我们的智能体都可以很好地完成任务。在开发过程中，用户可以随时修改需求，例如调整前端项目的风格、排版或布局，我们的智能体也能够很自然地完成，从而显著降低开发成本。”

与 Manus 和 OpenManus 等产品不同的是，MGX 具备自动部署能力。在开发过程中，软件会自动部署，用户可以实时预览和调整效果。此外，MGX 产品中的每个智能体也都具备之前提到的计算机工具调用、浏览器工具调用，以及规划和代码执行能力。

“我们内部也在探索对设计或数据可视化效果进行美学评估，未来可能会形成相应的 Benchmark，帮助大型模型或 Agent 学习评估生成的页面或数据仪表盘是否符合用户预期和审美标准。” 洪思睿透露。

以下是 MGX 生成的一些网站示例：

个人网站：

https://alex-portfolio-yhx5c3-v1.mgx.world/
https://photographer-portfolio-myuf2t-v1.mgx.world

个人博客：

https://personal-blog-v7amdv-v2.mgx.world
https://cute-cartoon-blog-p58801-v1.mgx.world

个人名片：

https://portfolio-dveerm-v1.mgx.world
https://emma-anderson-homepage-8rnqm6-v1.mgx.world

Q2. MGX DEV 后续是否会增加新的 Agent 类型？

洪思睿： “MGX 后续会持续增加新的 Agent 类型。我们内部目前正在尝试一种叫做 User Agent 的新型智能体。” 当用户项目部署后，可能会出现无法直接运行或存在缺陷，导致页面空白等情况。User Agent 将主动检测项目部署效果，例如截取页面截图，主动与网页交互，测试生成软件的可行性和可执行性，随后进一步通知其他负责开发的智能体进行修复，以便更完善地完成项目。 “此外，我们内部也可能沉淀针对设计或数据可视化效果进行美学评估的 Benchmark，使得 Agent 能够判断页面或数据仪表盘的质量与审美表现是否符合预期。” 洪思睿补充道。