DeepAgent:具有可扩展工具集的通用推理智能体
DeepAgent:具有可扩展工具集的通用推理智能体摘要DeepAgent被提出作为一个端到端的推理智能体,利用大型语言模型进行自主思考、动态工具发现和从可扩展工具集中执行行动。该框架显著优于先前的基于工作流的方法,在通用工具使用基准上实现了高达36.4%的更高成功率,并在复杂的下游应用上取得了最先进的结果,这得益于新颖的内存管理和量身定制的强化学习策略。
问题
现有的LLM智能体受限于僵化、预定义的工作流,限制了自主性与动态适应能力。
框架通常依赖受限且往往较小的工具集,难以覆盖真实世界的广泛需求。
长期交互面临上下文长度限制与错误累积,缺少有效自我纠正与内存管理。
训练效率低且不稳定:真实世界API交互昂贵且不稳定,中间工具调用难以提供细粒度反馈。
方法
开发DeepAgent:在统一、连贯的推理过程中整合自主思考、动态工具发现与行动执行。
引入自主记忆折叠机制:受大脑启发的记忆模式(情景记忆、工作记忆、工具记忆)压缩历史并支持战略性重思考。
提出ToolPO:端到端强化学习策略,使用LLM模拟API稳定训练,并通过对工具调用进行优势归因实现精确功劳分配。
结果
通用工具使用任 ...
生成式人工智能与机器学习导论2025 · 第2讲:上下文工程(Context Engineering)——AI Agent 背后的关键技术
生成式人工智能与机器学习导论2025 · 第2讲:上下文工程(Context Engineering)——AI Agent 背后的关键技术在生成式人工智能(Generative AI)与大型语言模型(Large Language Model, LLM)不断演进的浪潮中,上下文工程(Context Engineering)逐渐被公认为推动 AI Agent 真正具备智能行为的关键基础。它不仅是 Prompt Engineering 的延伸,更是让模型能够整合世界知识、记忆、个人偏好与任务约束的系统性方法论。
本文深入整理台大李宏毅教授于《生成式人工智能与机器学习导论2025》第2讲中的核心观点,并扩充理论背景与实务应用,从概念源起、技术结构到未来发展方向,全方位阐述 Context Engineering 的核心价值与挑战。我们将从语言模型的本质出发,探讨为什么在 AI Agent 时代,Context Engineering 成为了一项关键的技术。
我们在本文中所指的 AI Agent本文的 AI Agent 指:人类仅给定“目标(Goal)”,由 Agent 自主在“观察(Obser ...
SeCom: Redefining Memory Management in Conversational AI
SeCom: Redefining Memory Management in Conversational AIForewordI’ve recently been diving into memory management for dialog-based AI, especially how to construct and retrieve memories in long-term conversations. During my exploration I came across an eye-opening ICLR 2025 paper—**”SeCom: On Memory Construction and Retrieval for Personalized Conversational Agents”**—a collaboration between Microsoft and Tsinghua University.
SeCom solves a core problem: How can an agent effectively manage and retr ...
SeCom: 重新定义对话AI的记忆管理
SeCom: 重新定义对话AI的记忆管理写在前面最近笔者一直在研究对话AI中的内存管理问题,特别是长期对话场景下的记忆构建与检索技术。发现了一篇令人眼前一亮的ICLR 2025论文——《SeCom: On Memory Construction and Retrieval for Personalized Conversational Agents》,由Microsoft和清华大学的研究团队联合发表。
这篇论文提出的SeCom方法巧妙地解决了一个核心问题:如何在长期对话中有效管理和检索历史信息?今天想和大家分享一下这个方法的技术细节和创新点,希望能为从事相关研究的朋友们提供一些启发。
1. 为什么我们需要关注对话内存管理?1.1 长期对话的现实挑战在与LLMs的日常交互中,相信大家都遇到过这样的困扰:当对话变得很长时,AI似乎”忘记”了之前讨论的内容,或者给出的回答与前面的上下文不够连贯。这背后反映的正是长期对话中的内存管理挑战。
随着大语言模型技术的成熟,基于LLM的对话代理已经深入到我们生活的方方面面。但是,当我们希望与AI进行真正的长期、个性化交互时——比如跨越数天、数周的项目讨 ...
Decoder-only与Encoder-only模型Padding策略的差异
📌 Padding 的含义在大模型 (LLM) 中,padding 是用于将不同长度的序列调整为同一长度的方法,以便于批量 (batch) 处理。
例如:
12句子1: "I love NLP"句子2: "Padding is useful in LLM training"
使用 <pad> token 进行对齐:
12"I love NLP <pad> <pad> <pad>""Padding is useful in LLM training"
📌 Padding 位置的选择:Left vs RightPadding 有两种常见方式:
Right padding(右填充):
1"I love NLP <pad> <pad>"
Left padding(左填充):
1"<pad> <pad> I love NLP"
通常:
Decoder-only 模型(如 GPT, Llama):采用 Left padding
Encoder-only 模型(如 BERT):采用 Ri ...
Differences in Padding Strategies Between Decoder-only and Encoder-only Models
📌 What is Padding?In Large Language Models (LLMs), padding is a method used to standardize sequence lengths for batch processing.
For example:
12Sentence 1: "I love NLP"Sentence 2: "Padding is useful in LLM training"
Using the <pad> token for alignment:
12"I love NLP <pad> <pad> <pad>""Padding is useful in LLM training"
📌 Padding Positioning: Left vs RightThere are two common padding strategies:
Right padding:
1"I love NLP <pad> <pad>"
Left padding:
1"& ...
MoE模型的的可视化指南:揭秘 MoE 在大型语言模型中的角色
MoE 模型的的可视化指南:揭秘 MoE 在大型语言模型中的角色原文地址:A Visual Guide to Mixture of Experts (MoE)
📅 作者:Maarten Grootendorst
📆 日期:2024 年 10 月 7 日
探索语言模型:混合专家模型(MoE)可视化指南目录
MoE 模型的的可视化指南:揭秘 MoE 在大型语言模型中的角色
探索语言模型:混合专家模型(MoE)可视化指南
目录
什么是混合专家(MoE)模型?
Experts
Dense Layers
Sparse Layers
What does an Expert Learn?
专家的架构(Architecture of Experts)
当我们查看最新发布的大型语言模型(LLMs,Large Language Models)时,常常会在标题中看到 “MoE”。这个 “MoE” 代表什么?为什么这么多 LLM 都在使用它?
在这份可视化指南中,我们会通过 50 多个可视化图示,逐步探索这一关键组件:**Mixture of Experts (MoE)**。
图示内容:在 ...
推理 LLM 的可视化指南:探索推理时计算技术与 DeepSeek-R1
推理 LLM 的可视化指南:探索推理时计算技术与 DeepSeek-R1原文地址:A Visual Guide to Reasoning LLMs
📅 作者:Maarten Grootendorst
📆 日期:2025 年 2 月 3 日
📌 引言DeepSeek-R1、OpenAI o3-mini 和 Google Gemini 2.0 Flash Thinking 是如何通过“推理”框架将 LLM(大型语言模型, Large Language Models) 扩展到新高度的典型示例。
它们标志着从 扩展训练时计算(train-time compute) 到 扩展推理时计算(test-time compute) 的范式转变。
在本篇文章中,我们提供了 超过 40 张定制可视化图表,带你深入探索:
推理 LLM(Reasoning LLMs) 领域
推理时计算(Test-Time Compute) 机制
DeepSeek-R1 的核心思想
我们将逐步介绍相关概念,帮助你建立对这一新范式的直觉理解。
📖 什么是推理 LLM?与普通 LLM(Large Language ...
No title
Evaluation of Generation-Based Large Language Models (LLMs): Opportunities and Challenges from Generation to JudgmentAbstractEvaluation tasks in artificial intelligence (AI) and natural language processing (NLP) have long been challenging. Traditional evaluation methods, such as those based on matching or embeddings, are limited in assessing complex attributes. The recent development of large language models (LLMs) has given rise to the “LLM-as-a-Judge” paradigm, which utilizes LLMs for scoring, ...