DeepAgent：具有可扩展工具集的通用推理智能体

摘要

DeepAgent被提出作为一个端到端的推理智能体，利用大型语言模型进行自主思考、动态工具发现和从可扩展工具集中执行行动。该框架显著优于先前的基于工作流的方法，在通用工具使用基准上实现了高达36.4%的更高成功率，并在复杂的下游应用上取得了最先进的结果，这得益于新颖的内存管理和量身定制的强化学习策略。

问题

现有的LLM智能体受限于僵化、预定义的工作流，限制了自主性与动态适应能力。
框架通常依赖受限且往往较小的工具集，难以覆盖真实世界的广泛需求。
长期交互面临上下文长度限制与错误累积，缺少有效自我纠正与内存管理。
训练效率低且不稳定：真实世界API交互昂贵且不稳定，中间工具调用难以提供细粒度反馈。

方法

开发DeepAgent：在统一、连贯的推理过程中整合自主思考、动态工具发现与行动执行。
引入自主记忆折叠机制：受大脑启发的记忆模式（情景记忆、工作记忆、工具记忆）压缩历史并支持战略性重思考。
提出ToolPO：端到端强化学习策略，使用LLM模拟API稳定训练，并通过对工具调用进行优势归因实现精确功劳分配。

结果

通用工具使用任务上表现卓越：TMDB较最佳32B基线+36.4%（89.0% vs 55.0%），Spotify +22.8%（75.4% vs 52.6%）。
下游应用最先进：GAIA得分53.3（对比HiRA 42.5），ALFWorld成功率91.8%（对比HiRA 84.3%）。
消融研究确认关键性：移除ToolPO或记忆折叠会显著降性能。

要点

将思考、动态工具发现与行动执行统一到连续推理流，保持全局视角，超越碎片化的“感知-行动-观察”循环。
通过自主折叠与脑启发的记忆模式实现有效内存管理，支撑长期交互与战略性重规划。
借助LLM模拟的API与中间工具调用的精确奖励，提高工具使用智能体的强化学习效率与稳定性。

概述

DeepAgent 代表了 LLM 驱动智能体设计的一项重大进展，它解决了当前系统在处理复杂、真实世界任务时所面临的根本性限制。现有智能体框架（如 ReAct）依赖于僵化、预定义的工作流，并且受限于有限的工具集，而 DeepAgent 则引入了一种端到端的深度推理范式，使得自主思考、动态工具发现和在单一推理过程中连贯执行动作成为可能。

这项工作的动机源于当前方法中的关键缺陷：传统智能体遵循僵化的“推理-行动-观察”循环，缺乏全局任务的连贯性；而近期出现的“深度研究智能体”通常仅限于非常有限的工具集（通常只包括网页搜索、浏览和代码执行）。这些限制严重制约了它们在需要访问多样化、可扩展工具集的真实世界场景中的适用性。

架构和核心组件

DeepAgent 的架构围绕一个统一的推理过程，并由复杂的辅助机制支持。系统包含一个作为认知核心的主大型推理模型（LRM），并辅以辅助 LLM，负责处理工具文档过滤、信息汇总和内存压缩等复杂支撑任务。

智能体通过嵌入在其推理流中的自然语言提示进行操作：

工具发现：生成包裹在 \<tool_search\> 标签中的查询，触发密集检索，在预嵌入的工具文档中搜索。
工具执行：通过包含在 \<tool_call\> 标签中的结构化 JSON 调用执行，系统解析并执行这些命令后，将摘要结果反馈回推理上下文。

一项关键创新是动态工具检索能力，允许 DeepAgent 访问任意规模的工具集——从数百个到超过 16,000 个工具。

自主内存管理

DeepAgent 的自主内存折叠机制旨在有效处理长时序交互。传统智能体在扩展任务时常遭遇上下文长度爆炸与错误积累。DeepAgent 通过脑启发内存架构进行战略性内存压缩与重新规划。

当智能体判断需要“喘口气”并重新考虑其方法时，会生成 \<fold_thought\> 标签，触发辅助 LLM 进行内存压缩。压缩后的内存遵循三组件架构：

情景记忆（Episodic Memory）：捕捉高级任务进展、主要决策和关键事件，提供长期上下文保留。
工作记忆（Working Memory）：维护即时信息，包括当前子目标、遇到障碍和短期计划，确保折叠间的连续性。
工具记忆（Tool Memory）：整合与工具相关的经验，跟踪使用模式、有效性、参数组合和常见错误，以改进未来工具选择。

该结构以代理可用的 JSON 数据格式呈现，确保压缩稳定性并防止信息丢失。

ToolPO：端到端强化学习

训练通用工具使用代理的挑战包括真实 API 交互的不稳定/高成本，以及对中间动作提供精确反馈的难度。ToolPO 采用基于 LLM 的工具模拟器创建稳定训练环境，并引入双重奖励结构：

$$
A_{total}(y_i) = A_{succ}(y_i) + M(y_i) \cdot A_{action}(y_i)
$$

其中 (A_{succ}) 为全局任务成功优势，(A_{action}) 为工具调用与记忆折叠操作的细粒度优势归因，并通过 (M(y_i)) 遮蔽以确保精确的信用分配。

实验结果与性能

通用工具使用任务：DeepAgent-32B-RL 在 TMDB 上 89.0%，Spotify 75.4%，显著优于最佳 32B 基线（55.0%、52.6%）。
开放集工具检索鲁棒：ToolBench（>16,000 工具）成功率 64.0%，显著超越基线。
下游应用：GAIA 从 46.7 提升至 53.3；ALFWorld 成功率 91.8%。
消融：去除 ToolPO 或记忆折叠均显著降分，长周期任务影响尤甚（如 GAIA 53.3 → 44.7）。

意义与影响

DeepAgent 从僵化、预定义工作流转向自主的端到端推理系统，能够动态发现并利用任意大型工具集。受人类认知启发的内存管理解决了长期交互中的上下文溢出与错误积累。ToolPO 提供高效稳定的训练路径，降低成本与不稳定性，推动通用智能体在现实场景中的可行性。

DeepAgent 技术白皮书：具备可扩展工具集的通用推理智能体

1.0 引言：超越传统智能体工作流的局限性

由大型语言模型（LLM）驱动的智能体在现实应用中扮演重要角色。然而主流框架（如 ReAct、Plan-and-Solve）依赖预定义工作流，暴露出：

自主性不足，执行与流程受严格模式限制；
不能动态发现新工具，只能依赖预先提供的工具集；
缺少自主内存管理，难以应对长程交互的上下文爆炸；
推理深度与连贯性不足，缺乏全局视角。

为突破这些限制，提出 DeepAgent，实现从程序化指令执行到自主推理的范式转变。

2.0 DeepAgent 核心范式：统一的自主推理流程

DeepAgent 将自主思考、工具发现与动作执行彻底融合到单一、连贯的智能体推理过程中，维持全局视角并按需动态调用工具，突破传统“Reason-Act-Observe”循环对思考的打断与碎片化。

3.0 核心架构与关键机制

DeepAgent 的双模型协同：

主推理模型（LRM）：负责高级战略规划与自主行动。
辅助 LLM：承担文档过滤与总结、信息降噪与压缩、历史记录压缩。

3.2 自主工具发现与调用

工具搜索（Tool Search）：在推理文本中生成 \<tool_search\> 查询，由检索器进行密集检索并返回 top-k 相关工具。
工具调用（Tool Call）：生成包含工具名称与参数的结构化调用 \<tool_call\>，系统解析、执行并由辅助 LLM 总结结果反馈给主模型。

3.3 自主内存折叠：实现长程交互的鲁棒性

在任意逻辑节点可触发 \<fold_thought\>，由辅助 LLM 将长交互历史压缩为结构化内存组件，以清晰视角重新出发，避免错误路径。

3.4 脑启发式内存模式

情景记忆（Episodic Memory）
工作记忆（Working Memory）
工具记忆（Tool Memory）

三者采用 JSON 结构作为代理可用数据模式，减少关键信息丢失。

4.0 ToolPO：为通用工具使用设计的端到端强化学习

两大挑战：真实 API 依赖、稀疏奖励。ToolPO 的两大设计：

基于 LLM 的工具模拟器，提供稳定高效、低成本的训练环境；
工具调用优势归因，将信用直接归因于 \<tool_call\> 与 \<fold_thought\> 序列相关令牌，提供精细学习信号。

5.0 性能评估与实证分析

标记工具场景（TMDB/Spotify）：DeepAgent-32B-RL 成功率 89.0%/75.4%，显著优于最强 32B 基线 55.0%/52.6%。
开放集场景（ToolBench/ToolHop）：成功率 64.0%/40.6%，大幅领先基线。
长程任务（GAIA/WebShop）：自主推理范式优势明显；GAIA 53.3。
ToolPO 训练显著增益：GAIA +6.6，ALFWorld +3.7。

关键组件有效性

移除 ToolPO：平均分 48.1 → 44.3。
移除自主内存折叠：GAIA 53.3 → 44.7。
去除工具模拟器或优势归因：性能下降，验证其必要性。

可扩展性与泛化

动作限制增大时优势扩大，显示更优的战略性行动选择。
不同模型规模（30B/235B）下稳定超越工作流方法。

6.0 结论

DeepAgent 的三大核心创新：

统一的智能体推理过程，保持全局视角并动态使用工具；
自主内存折叠机制，支持长交互中的重规划与鲁棒性；
ToolPO 强化学习，兼顾稳定性与效率，精准指导复杂技能学习。

广泛实验显示 DeepAgent 在通用工具使用与下游应用中显著优于基线，推动智能体从“工具”走向“自主的解决问题伙伴”。
DeepAgent: 具有可扩展工具集的通用推理智能体
DeepAgent被提出作为一个端到端的推理智能体，利用大型语言模型进行自主思考、动态工具发现和从可扩展工具集中执行行动。该框架显著优于先前的基于工作流的方法，在通用工具使用基准上实现了高达36.4%的更高成功率，并在复杂的下游应用上取得了最先进的结果，这得益于新颖的内存管理和量身定制的强化学习策略。

问题
现有的LLM智能体受限于僵化、预定义的工作流，这限制了它们的自主性和动态适应各种任务的能力。
当前的框架通常依赖于受限且往往较小的工具集，这使得智能体无法满足现实世界中广泛而多样的需求。
长期的交互带来了挑战，原因在于上下文长度限制以及在缺乏有效自我纠正或内存管理机制的情况下错误累积。
训练通用工具使用智能体效率低下且不稳定，主要由于昂贵、潜在的真实世界API交互，以及难以对中间工具调用提供细粒度反馈。

方法

开发了DeepAgent，一个端到端的深度推理智能体，在一个统一、连贯的推理过程中整合了自主思考、动态工具发现和行动执行。
引入了自主记忆折叠机制，该机制由受大脑启发的记忆模式（情景记忆、工作记忆和工具记忆）支持，通过压缩历史并实现战略性重新考虑来有效管理长期交互。
提出了ToolPO，一种端到端的强化学习策略，它使用LLM模拟的API进行稳定训练，并整合了细粒度的工具调用优势归因，以在策略优化期间进行精确的功劳分配。‘

结果

DeepAgent在通用工具使用任务上取得了卓越性能，在TMDB上比最佳32B基线高出36.4%（89.0% vs 55.0%），在Spotify上高出22.8%（75.4% vs 52.6%）。
在复杂的下游应用中，DeepAgent在32B模型中达到了最先进的性能，在GAIA上得分53.3（相比HiRA的42.5），在ALFWorld上成功率为91.8%（相比HiRA的84.3%）。
消融研究证实了ToolPO训练和自主记忆折叠的关键性，因为移除它们会导致性能显著下降，突显了它们对鲁棒智能体行为的重要贡献。

要点
将思考、动态工具发现和行动执行统一到一个连续的推理流中，使LLM能够对任务保持全局视角，超越碎片化的“感知-行动-观察”循环。
通过自主折叠和结构化、受大脑启发的记忆模式实现的有效内存管理，对于处理长期交互、防止上下文溢出和实现战略性重新规划至关重要。
通过利用LLM模拟的API并为中间工具调用提供精确、局部的奖励，可以稳定并提高工具使用智能体的强化学习效率。

目录概述架构和核心组件自主内存管理ToolPO：端到端强化学习实验结果与性能意义与影响相关引用概述
DeepAgent 代表了 LLM 驱动智能体设计的一项重大进展，它解决了当前系统在处理复杂、真实世界任务时所面临的根本性限制。现有智能体框架（如 ReAct）依赖于僵化、预定义的工作流，并且受限于有限的工具集，而 DeepAgent 则引入了一种端到端的深度推理范式，使得自主思考、动态工具发现和在单一推理过程中连贯执行动作成为可能。

这项工作的动机源于当前方法中的关键缺陷：传统智能体遵循僵化的“推理-行动-观察”循环，缺乏全局任务的连贯性；而近期出现的“深度研究智能体”通常仅限于非常有限的工具集（通常只包括网页搜索、浏览和代码执行）。这些限制严重制约了它们在需要访问多样化、可扩展工具集的真实世界场景中的适用性。
架构和核心组件
DeepAgent 的架构围绕一个统一的推理过程，并由复杂的辅助机制支持。如图 3 所示，该系统包含一个作为认知核心的主大型推理模型（LRM），并辅以辅助 LLM，负责处理复杂的支持任务，例如工具文档过滤、信息汇总和内存压缩。

智能体通过嵌入在其推理流中的自然语言提示进行操作。对于工具发现，它生成包裹在标记中的查询，触发一个密集检索机制，该机制在预嵌入的工具文档中进行搜索。工具执行通过包含在标记中的结构化 JSON 调用进行，系统解析并执行这些命令，然后将摘要结果反馈回推理上下文。
一项关键创新是动态工具检索能力，允许 DeepAgent 访问任意规模的工具集——从数百个到超过 16,000 个工具。这种可扩展性与新兴的模型上下文协议范式保持一致，代表了与以前系统静态、预定义工具访问相比的重大飞跃。
自主内存管理
DeepAgent 最重要的贡献之一是其自主内存折叠机制，旨在有效处理长时序交互。传统智能体在执行扩展任务时，常常遭遇上下文长度爆炸和错误积累的问题。DeepAgent 通过一种受大脑启发的内存架构来应对这些挑战，该架构允许战略性的内存压缩和重新规划。

当智能体判断需要“喘口气”并重新考虑其方法时，它会生成一个标记，触发辅助 LLM 进行内存压缩。压缩后的内存遵循一个结构化的三组件架构：
情景记忆（Episodic Memory）：捕捉高级别的任务进展、主要决策和关键事件，提供长期上下文保留。
工作记忆（Working Memory）：维护即时信息，包括当前子目标、遇到的障碍和短期计划，确保内存折叠间的连续性。
工具记忆（Tool Memory）：整合与工具相关的经验，跟踪使用模式、有效性、参数组合和常见错误，以改进未来的工具选择。
这种结构化方法以代理可用的 JSON 数据格式呈现，确保了压缩过程中的稳定性并防止信息丢失，同时保持了代理有效推理其过去经验的能力。
ToolPO：端到端强化学习
训练通用工具使用代理面临重大挑战，因为真实世界 API 交互的不稳定性、延迟和成本，以及为中间行动提供精确反馈的难度。DeepAgent 通过工具策略优化（ToolPO）这一创新强化学习策略解决了这些问题。
ToolPO 采用基于 LLM 的工具模拟器来创建稳定、高效的训练环境，从而避免了直接真实世界 API 训练的缺陷。该方法实现了双重奖励结构：
$$
A_{total}(y_i) = A_{succ}(y_i) + M(y_i) \cdot A_{action}(y_i)
$$
其中 $A_{succ}$ 表示应用于所有 token 的全局任务成功优势，$A_{action}$ 专门为工具调用和记忆折叠操作提供细粒度优势归因，并通过 $M(y_i)$ 进行遮蔽，以确保精确的信用分配。
这种方法使模型能够同时学习整体任务完成和特定中间行动的正确性，与传统的稀疏奖励方法相比，能够实现更稳定、更有效的策略更新。
实验结果与性能
DeepAgent 在八个基准测试中接受了全面评估，结果表明其性能始终优于现有方法。在通用工具使用任务中，DeepAgent-32B-RL 在 TMDB 上取得了 89.0% 的惊人成功率，在 Spotify 上使用带标签工具取得了 75.4% 的成功率，显著优于最佳 32B 基线（分别为 55.0% 和 52.6%）。

该系统在开放集工具检索场景中的鲁棒性尤其值得关注。在拥有超过 16,000 个工具的 ToolBench 上，DeepAgent-32B-RL 取得了 64.0% 的成功率，大幅超越了顶级基线性能。这验证了动态工具发现在现实、大规模工具环境中的有效性。
对于复杂的下游应用，DeepAgent 始终优于基于工作流的方法。在 GAIA 这一具有挑战性的通用 AI 助手基准测试中，DeepAgent-32B-Base 得分为 46.7，而最佳基于工作流的方法得分为 34.5。ToolPO 训练提供了持续改进，将 GAIA 分数从 46.7 提高到 53.3。

消融研究证实了每个组件的关键作用：移除 ToolPO 训练导致了最显著的性能下降，而禁用记忆折叠尤其影响了 GAIA 等长周期任务（从 53.3 降至 44.7）。扩展分析显示，DeepAgent 相对于基线的性能优势随着行动限制的增加而增加，表明其行动选择更具战略性和有效性。
意义与影响
DeepAgent 代表了 LLM 驱动代理的范式转变，从僵化、预定义的工作流转向真正自主的端到端推理系统。这一进步解决了当前方法中的根本局限性，并为实际应用开辟了新的可能性。
该系统动态发现和利用任意大型工具集的能力尤其重要。这种能力在从数百个到超过 16,000 个工具的工具集中得到了证明，为个人助理、科学研究、软件工程和电子商务等不同领域的应用解锁了潜力。
受人类认知过程启发的自主记忆管理系统，为长期交互提供了一个强大的解决方案，而长期交互一直是该领域的一个持续挑战。这种机制使代理能够在扩展任务中保持连贯的性能，同时避免上下文溢出和错误积累的陷阱。
从实践角度来看，ToolPO 提供了一种高效稳定的训练方法，使开发复杂的工具使用代理变得更加可行。通过利用 LLM 模拟的 API 和细粒度的信用分配，它解决了阻碍代理训练规模化扩展的成本和稳定性挑战。
在各种基准测试中展示的广泛适用性表明，它在现实世界应用中具有巨大的潜在影响，从高级个人助理和信息检索系统到自动化软件工程和科学发现工具。DeepAgent 的架构为未来代理 AI 的研究奠定了坚实的基础，特别是在需要复杂推理与多样化工具集成相结合的领域。

DeepAgent 技术白皮书：具备可扩展工具集的通用推理智能体

1.0 引言：超越传统智能体工作流的局限性

由大型语言模型（LLM）驱动的智能体，正在现实世界的应用中扮演愈发重要的角色，从个人助理到复杂的软件工程，其潜力日益凸显。然而，当前主流的智能体框架，如 ReAct 和 Plan-and-Solve，大多依赖于预定义的工作流（predefined workflows）。尽管这些方法在处理简单任务时表现尚可，但其固有的僵化结构在应对复杂现实世界问题时暴露了四大核心挑战。

首先，这些框架缺乏自主性，无论是单个执行步骤还是整体任务流程，都受到严格的模式限制。其次，它们无法在任务执行过程中动态发现新工具，只能依赖预先提供的工具集。第三，它们缺少完全自主的内存管理能力，难以有效应对长程交互带来的上下文爆炸问题。最后，其推理深度和连贯性不足，智能体通常只关注眼前的局部目标，而非任务的全局视角。

这些根本性的局限性严重阻碍了智能体解决那些需要通用工具使用能力和长程交互的复杂现实世界问题。为打破这些束缚，我们构建了 DeepAgent——一个旨在实现从程序化指令执行到真正自主推理的范式转变。

2.0 DeepAgent 核心范式：统一的自主推理流程

本章节旨在阐述 DeepAgent 的核心设计理念，并通过与传统智能体及深度研究智能体的对比，凸显其在范式上的根本性转变。DeepAgent 的核心在于，它将自主思考（autonomous thinking）、工具发现（tool discovery）和动作执行（action execution）彻底融合到一个单一、连贯的智能体推理过程中（single, coherent agentic reasoning process）。

传统工作流（如 ReAct 的“Reason-Act-Observe”循环）迫使智能体不断“打断”其思考过程，以适应离散、僵化的循环，导致其思维被碎片化，只能维持短视的局部视角。与此形成鲜明对比的是，DeepAgent 在一个统一的“意识流”（stream of consciousness）中运作。这种不间断的认知流使得智能体能够始终保持对任务的全局视角（global perspective），在推理过程中根据实际需要，即时、动态地发现并调用最合适的工具。这一模式也超越了仅能使用少数预定义工具（如网页搜索、代码执行）的深度研究智能体，将工具集扩展至任意规模，以应对真实世界的复杂性与多样性。

通过这种方式，DeepAgent 彻底摆脱了预定义工作流的束缚，充分释放了大型推理模型（LRM）的自主潜力。要实现这一高级范式，需要一套精密的架构和关键机制作为支撑，我们将在下一章节对此进行深入剖析。

3.0 核心架构与关键机制

DeepAgent 范式的力量并非魔法，而是精密工程的产物。本章节将解构其核心技术支柱——协同双模型系统、动态交互机制以及创新的内存策略——正是这些架构赋予了其先进的自主性。

3.1 协同推理架构：主推理模型与辅助大语言模型

DeepAgent 采用独特的双模型架构，通过明确的分工来提升推理效率和系统稳定性。

主推理模型 (Main Reasoning Model)：作为框架的核心，主推理模型是一个强大的大型推理模型（LRM）。它驱动整个任务的思考、决策和执行流程，负责高级战略规划和自主行动。
辅助大语言模型 (Auxiliary LLM)：辅助 LLM 负责处理一系列复杂的支撑性任务，从而为主推理模型减负。其战略价值体现在以下三个方面：
1. 文档过滤与总结：当检索到的工具文档过于冗长时，辅助 LLM 会对其进行过滤和总结，提炼出关键信息。
2. 信息降噪与压缩：对于工具返回的繁杂信息，辅助 LLM 会进行降噪和压缩，确保反馈给主模型的是简洁、有用的内容。
3. 历史记录压缩：在进行内存折叠时，由辅助 LLM 负责将长交互历史压缩为结构化的内存组件。

这种协同分工的架构使得主模型能够专注于高级战略推理，而不被繁琐的底层信息处理任务所干扰。

3.2 自主工具发现与调用

DeepAgent 的主推理模型通过在其连贯的推理文本中生成特定的文本提示来执行所有动作，这些提示随后由系统拦截并执行。

工具搜索 (Tool Search)：当智能体判断需要某个工具时，它会生成一个封装在特殊标签内的自然语言查询，格式如下：
后端系统接收到该指令后，其工具检索器会通过密集检索（dense retrieval）余弦相似度计算，最终检索并返回 top-k 个最相关的工具。
工具调用 (Tool Call)：一旦确定了要使用的工具，智能体便会生成一个结构化的调用指令，其中包含工具名称和所需参数：
框架会解析这个调用，执行相应的工具，并将执行结果交由辅助 LLM 进行总结，最后将简洁有效的信息反馈给主模型，以供其继续推理。

3.3 自主内存折叠：实现长程交互的鲁棒性

长程交互任务的核心挑战在于上下文长度的爆炸式增长和错误决策的累积。为解决此问题，DeepAgent 引入了自主内存折叠（Autonomous Memory Folding）机制。

该机制的战略意义在于，它赋予了智能体一种元认知能力。传统智能体在陷入困境时，只会盲目地累积更多上下文直至失败。而 DeepAgent 则拥有自主决策的能动性，它能够在推理过程中的任何逻辑节点——例如完成一个子任务后，或意识到当前探索路径错误时——主动“喘息（take a breath）”，从更高层面重新审视其完整历史，并调整其核心策略。

智能体通过生成一个特殊的令牌来触发该机制：

一旦系统检测到此令牌，便会调用辅助 LLM 来处理此前的全部交互历史，并将其压缩为结构化的内存组件。这些压缩后的内存将取代原始的冗长历史记录，使智能体能以一个更清晰、更凝练的视角重新出发，从而有效避免陷入错误的探索路径，显著提高复杂任务的整体成功率。

3.4 脑启发式内存模式

自主内存折叠的有效性，其关键在于我们设计的脑启发式内存模式（brain-inspired memory schema）。正是这一结构化的模式，使得内存压缩过程不再是一种充满不确定性的、有损的信息提炼。它是一种使折叠后的内存对智能体保持可用且稳定的使能技术，确保智能体不会被自己压缩后的“思想”所困扰。该模式由三个并行的结构化内存组件构成：

情景记忆 (Episodic Memory)：作为任务的高级日志，它记录了关键事件、主要决策点以及子任务的完成情况。该记忆为智能体提供了关于任务整体结构和目标的长期上下文。
工作记忆 (Working Memory)：它包含与当前任务最相关的信息，如当前的子目标、遇到的障碍以及近期的行动计划。这是确保智能体在内存折叠后能够无缝衔接推理的核心。
工具记忆 (Tool Memory)：此组件整合了所有与工具相关的交互经验，包括使用了哪些工具、调用方式及其效果。它帮助智能体从过去的经验中学习，并不断优化其工具使用策略。

我们选择使用 JSON 格式的代理可用数据模式（agent-usable data schema）而非非结构化的自然语言。这种结构化格式具有两大优势：首先，其结构可控且可预测，便于智能体解析；其次，它能有效减少在文本总结过程中关键细节的丢失。

这些核心机制协同工作，赋予了 DeepAgent 强大的自主推理和交互能力。接下来，我们将介绍如何通过先进的训练方法，让智能体真正掌握这些复杂的能力。

4.0 ToolPO：为通用工具使用设计的端到端强化学习

为了高效、稳定地训练 DeepAgent 掌握上述复杂机制，我们专门设计了一种名为 ToolPO 的端到端强化学习（RL）方法论。在通用领域中，对智能体进行强化学习训练面临两大严峻挑战：

训练过程依赖大量真实世界的 API，这不仅会导致高昂的成本和缓慢的执行速度，还会因外部服务的不稳定性而影响训练效果。
仅基于最终任务结果的稀疏奖励信号，不足以保证智能体在漫长的交互过程中做出准确的中间工具调用。

ToolPO 通过两大创新设计成功应对了这些挑战：

基于 LLM 的工具模拟器 (LLM-based Tool Simulator) 为解决对真实世界 API 的依赖问题，我们利用一个辅助 LLM 来构建工具模拟器。该模拟器能够模仿真实 API 的响应行为，从而为强化学习训练提供一个稳定、高效且低成本的虚拟环境。这使得大规模、鲁棒的训练成为可能。
工具调用优势归因 (Tool-call Advantage Attribution) 为解决稀疏奖励问题，该机制超越了对整个动作进行简单“通过/失败”奖励的模式。取而代之的是，它细致地将信用直接归因于构成一个正确的或序列的具体令牌。这提供了一个极其精细和有针对性的学习信号，精确地教导模型哪些文本模式能够导向成功的动作，从而极大地提升了学习效率。

ToolPO 的最终优化目标是使用一个裁剪的代理目标函数来稳定地更新策略，鼓励模型提升那些能够带来正向全局（任务成功）和局部（正确工具调用）优势的行为的概率。经过 ToolPO 训练的 DeepAgent 在一系列严格的基准测试中展现了其卓越性能，我们将在下一章节进行详细阐述。

5.0 性能评估与实证分析

本章节将通过在八个涵盖通用工具使用和下游应用的基准测试上的广泛实验数据，全面展示 DeepAgent 相对于现有方法的卓越性能和鲁棒性。

5.1 基准测试概览

我们的实验涵盖了两大类任务，旨在全面评估智能体的各项能力。

任务类别基准测试及核心评估点
通用工具使用任务 ToolBench: 包含超过 16,000 个真实世界 API，评估复杂的多步、多工具调用链能力。
API-Bank: 在对话场景中评估规划、检索和 API 调用能力。
TMDB & Spotify: 模拟 REST 应用，评估在特定领域工具集（电影、音乐）中的表现。
ToolHop: 在 3,912 个工具中评估需要 3-7 次顺序工具调用的深度多跳推理能力。
下游应用任务 ALFWorld: 文本化具身智能任务，通过“移动到桌子”等文本命令评估在虚拟家居环境中的目标完成能力。
WebShop: 在线购物环境，评估使用“搜索”和“点击”动作完成用户购买需求的能力。
GAIA: 复杂的通用 AI 助手基准，评估对网页搜索、视觉问答 (VQA)、代码执行等多种工具的灵活应用。
HLE (Humanity’s Last Exam): 高难度推理问题，旨在评估模型的内在深度推理能力，其问题设计意在使简单的外部搜索工具无法直接求解。

5.2 核心性能对比：DeepAgent vs. 主流基准方法

综合分析实验数据，DeepAgent 在通用工具使用和下游应用两大类任务中，均显著超越了如 ReAct、CodeAct 等主流基准方法。

端到端推理的优越性：在 TMDB 和 Spotify 这类工具预先明确的“标记工具（labeled-tool）”场景中，DeepAgent-32B-RL 的成功率分别达到了 89.0% 和 75.4%，远超最强 32B 基线模型的 55.0% 和 52.6%。这证明了即使在不需要工具发现的情况下，DeepAgent 统一的智能体流程本身也优于僵化的预定义工作流。
在开放工具集场景下的鲁棒性：在需要动态发现工具的 ToolBench 和 ToolHop 开放集场景中，DeepAgent 的优势更为明显。其成功率分别达到 64.0% 和 40.6%，而基线方法的最高分仅为 54.0% 和 29.0%。这表明 DeepAgent 的动态工具发现策略在真实场景中具有强大的可扩展性。
在长程交互任务中的卓越表现：在 GAIA 和 WebShop 等需要深度智能体推理能力的长程任务中，DeepAgent 的自主推理范式表现更优。例如，在 GAIA 上，DeepAgent-32B-RL 的得分为 53.3，显著高于表现最好的工作流方法 CodeAct（34.5）。
ToolPO 训练的显著增益：经过 ToolPO 强化学习训练的 DeepAgent-32B-RL 模型相比其基础版本带来了显著的性能提升。在 GAIA 任务上，得分从 46.7 提升至 53.3（+6.6）；在 ALFWorld 任务上，成功率从 88.1% 提升至 91.8%（+3.7）。

综合来看，这些结果揭示了一个清晰的模式：随着任务复杂度的增加——无论是通过更大的工具集、更长的交互跨度，还是对动态发现的需求——DeepAgent 的整体性推理与传统工作流的碎片化方法之间的性能差距显著扩大。

5.3 关键组件的有效性分析

通过消融研究，我们评估了 DeepAgent 各核心组件的贡献，结果清晰地证明了每个部分都至关重要。

ToolPO 训练的重要性：移除端到端的强化学习训练（即使用基础模型）导致了最显著的性能下降（平均分从 48.1 降至 44.3）。这凸显了 ToolPO 方法在提升工具使用和复杂任务完成能力方面的核心作用。
内存折叠的有效性：移除自主内存折叠机制后，性能同样大幅下降（平均分降至 44.2），尤其是在长程任务 GAIA 上，得分从 53.3 骤降至 44.7。这证实了该机制对于实现鲁棒的长期交互至关重要。
训练策略的贡献：分别移除训练过程中的工具模拟器和工具调用优势归因机制，均导致了性能下降。这验证了工具模拟器在提升训练稳定性方面的作用，以及优势归因在提供精确学习信号方面的价值。

5.4 可扩展性与泛化能力分析

DeepAgent 在不同条件下均展现出强大的可扩展性和泛化能力。

动作限制的可扩展性：在 WebShop 和 GAIA 任务中，随着最大动作限制的增加，DeepAgent 与 ReAct 的性能差距逐渐扩大。这一持续的优势表明，DeepAgent 能够战略性地选择有效且与任务相关的动作，而 ReAct 则可能陷入重复或无效的步骤中，因而在更长的交互窗口中难以取得同等进展。
对不同骨干模型的泛化能力：我们将 DeepAgent 架构应用于不同参数规模的骨干模型（30B 和 235B）上。实验结果表明，无论在哪种模型规模下，DeepAgent 均能稳定地超越传统工作流方法，证明了其架构设计的普适性和良好的模型扩展性。

本章的实证分析有力地确认了 DeepAgent 作为一个全新范式的有效性与先进性，为我们构建更强大的通用智能体奠定了坚实的基础。

6.0 结论

DeepAgent 作为一个将思考、工具发现和执行统一到单一连贯流程中的端到端推理智能体，其核心贡献在于突破了传统智能体框架的局限性，实现了真正意义上的自主推理。

我们在此重申 DeepAgent 的三大核心创新：

统一的智能体推理过程：通过打破传统工作流的僵化限制，使得智能体能够保持对任务的全局视角，并根据需要动态发现和使用工具，充分释放了大型推理模型的潜力。
自主内存折叠机制：通过脑启发式的结构化内存设计，实现了对长交互历史的有效压缩，赋予了智能体在复杂任务中“喘息”和重新规划的能力，显著提升了鲁棒性。
ToolPO 强化学习方法：通过创新的工具模拟器和工具调用优势归因，解决了通用工具使用场景下强化学习训练的稳定性和效率难题，为智能体掌握复杂技能提供了精确的指导。

广泛的实验结果已经证明，DeepAgent 在通用工具使用和下游应用任务中的性能显著优于现有基线方法。DeepAgent 不仅仅是一个更优的智能体框架，它更代表着我们向实现能够自主驾驭现实世界复杂性和模糊性的智能体迈出的关键一步，使其从简单的工具转变为真正的解决问题的伙伴。