SeCom: 重新定义对话AI的记忆管理

写在前面

最近笔者一直在研究对话AI中的内存管理问题，特别是长期对话场景下的记忆构建与检索技术。发现了一篇令人眼前一亮的ICLR 2025论文——《SeCom: On Memory Construction and Retrieval for Personalized Conversational Agents》，由Microsoft和清华大学的研究团队联合发表。

这篇论文提出的SeCom方法巧妙地解决了一个核心问题：如何在长期对话中有效管理和检索历史信息？今天想和大家分享一下这个方法的技术细节和创新点，希望能为从事相关研究的朋友们提供一些启发。

1. 为什么我们需要关注对话内存管理？

1.1 长期对话的现实挑战

在与LLMs的日常交互中，相信大家都遇到过这样的困扰：当对话变得很长时，AI似乎”忘记”了之前讨论的内容，或者给出的回答与前面的上下文不够连贯。这背后反映的正是长期对话中的内存管理挑战。

随着大语言模型技术的成熟，基于LLM的对话代理已经深入到我们生活的方方面面。但是，当我们希望与AI进行真正的长期、个性化交互时——比如跨越数天、数周的项目讨论，现有的技术就显得力不从心了。

长期对话面临的主要技术挑战包括：

上下文长度限制：即使是支持长上下文的模型，在处理超长对话时也面临计算成本和性能下降的问题
信息相关性：历史对话中可能包含大量与当前查询无关的信息
语义连贯性：相关信息可能分散在多个不连续的对话轮次中
个性化记忆：需要记住用户的偏好、习惯和历史交互模式

1.2 笔者对Memory管理领域的观察

在深入研究这个领域的过程中，笔者发现对话内存管理其实是一个相当复杂的系统工程。它的核心目标听起来很简单：从历史对话中提取、存储和检索相关信息，以支持当前对话的生成。但实际实现起来，需要解决三个关键问题：

内存构建（Memory Construction）：如何将自然语言对话转换为结构化的内存单元？
内存检索（Memory Retrieval）：面对海量历史信息，如何快速准确地找到相关内容？
响应生成（Response Generation）：如何基于检索到的记忆生成连贯、个性化的回复？

听起来是不是很像人类的记忆机制？确实如此，这也是为什么这个问题如此有趣和具有挑战性。

1.2.2 现有方法的”三国演义”

在研究过程中，笔者发现现有的方法大致可以分为三大流派，每个都有自己的”哲学”：

“全盘托出”派（基于完整历史）：

核心思想：既然不知道什么重要，那就全部给你！
优势：信息完整，绝不遗漏
问题：就像把整个图书馆搬给你找一本书，效率可想而知

“提纲挈领”派（基于摘要）：

核心思想：重要的信息浓缩成摘要就够了
优势：信息压缩，计算高效
问题：摘要过程中重要细节可能”意外失踪”

“精准打击”派（基于检索）：

代表方法：轮次级检索、会话级检索
核心思想：需要什么就检索什么，按需取用
优势：计算效率高，定位精确
问题：关键在于如何确定检索的”粒度”——这正是SeCom要解决的核心问题！

1.2.3 检索增强生成（RAG）在对话中的应用

检索增强生成技术在对话系统中的应用日益广泛，主要包括：

**Dense Passage Retrieval (DPR)**：使用预训练的密集检索模型
BM25：基于词频统计的稀疏检索方法
Hybrid Retrieval：结合密集检索和稀疏检索的优势

然而，现有RAG方法在对话场景中面临独特挑战：

分块策略（Chunking Strategy）：如何将对话分割为检索单元
相关性判断：对话的相关性判断比文档检索更复杂
时序依赖：对话具有强时序性，前后文关系重要

1.3 内存粒度问题的深层分析

1.3.1 轮次级内存的局限性

轮次级内存将每个用户-代理交互（turn）作为独立的内存单元：

数学表示：
设对话历史 $\mathcal{H} = {\mathbf{c}i}{i=1}^C$，其中每个会话 $\mathbf{c}i = {\mathbf{t}j}{j=1}^{T_i}$
轮次级内存：$|\mathcal{M}| = \sum{i=1}^C T_i$，每个 $\mathbf{m} \in \mathcal{M}$ 对应一个轮次 $\mathbf{t}$

主要问题：

信息碎片化：相关信息分散在多个轮次中，单个轮次可能缺乏完整语义
上下文缺失：轮次间的依赖关系丢失
检索精度低：查询词汇可能不直接出现在相关轮次中

具体示例：
用户在第3轮询问”什么是机器学习”，第5轮询问”监督学习的例子”，第8轮询问”如何选择算法”。当用户在第10轮询问”之前提到的分类算法性能如何评估”时，轮次级检索可能无法找到完整的上下文。

1.3.2 会话级内存的局限性

会话级内存将整个对话会话作为内存单元：

数学表示：
会话级内存：$|\mathcal{M}| = C$，每个 $\mathbf{m} \in \mathcal{M}$ 对应一个会话 $\mathbf{c}$

主要问题：

主题混杂：单个会话可能包含多个不相关主题
噪声干扰：大量无关信息影响检索和生成质量
检索粗糙：无法精确定位到具体相关内容

具体示例：
一个会话中用户讨论了机器学习、烹饪食谱、旅行计划和电影推荐。当查询机器学习相关问题时，检索到的会话包含大量无关的烹饪和旅行信息。

1.3.3 摘要化方法的信息损失

摘要化方法通过压缩对话内容来减少信息量：

主要问题：

细节丢失：摘要过程中重要细节可能被省略
主观性：摘要质量依赖于模型的理解能力
不可逆性：一旦信息被摘要，原始细节无法恢复

2. SeCom的设计

2.1 核心发现

SeCom（Segmentation + Compression）的两个核心发现：

洞察一：对话天然具有”段落”结构
就像我们写文章会分段一样，人类的对话其实也有天然的主题边界。比如在一次长对话中，我们可能先讨论工作项目，然后转到周末计划，再聊到最近看的电影。每个主题就是一个天然的”段落”。

传统方法要么把每句话当作独立单元（太碎片化），要么把整个对话当作一个整体（太粗糙），而SeCom找到了中间的最佳平衡点——段落级的语义单元。

洞察二：自然语言充满”废话”
这听起来有点刻薄，但确实如此。我们日常对话中充满了”嗯”、”那个”、”你知道的”这样的冗余表达，还有大量的重复、确认、客套话。这些在人际交流中很重要，但对机器检索来说就是噪声。

SeCom通过智能压缩，保留关键信息的同时去除这些”噪声”，让检索更加精准。

2.2 系统设计

SeCom的整体架构设计非常优雅，就像一条高效的流水线：

1	历史对话 → [分段器] → 段落级内存单元 → [压缩器] → 去噪内存单元 → [检索器] → 相关上下文 → [生成器] → 最终回复

用更直观的话来解释这个流程：

分段器：将杂乱的对话历史按主题”切块”
压缩器：将每个”块”中的废话去掉，保留精华
检索器：根据当前问题找到最相关的”块”
生成器：基于相关信息生成回答

技术表示（没什么用，写给喜欢数学的朋友）：
设 $f_{\mathcal{I}}$ 为分段器，$f_{Comp}$ 为压缩器，$f_R$ 为检索器，$f_{LLM}$ 为生成器

完整流程：

${\mathbf{s}k}{k=1}^K \leftarrow f_{\mathcal{I}}(\mathcal{H})$ （对话分段）
${\mathbf{m}k}{k=1}^K \leftarrow f_{Comp}({\mathbf{s}k}{k=1}^K)$ （压缩去噪）
${\mathbf{m}n}{n=1}^N \leftarrow f_R(u^*, {\mathbf{m}k}{k=1}^K, N)$ （内存检索）
$r^* = f_{LLM}(u^*, {\mathbf{m}n}{n=1}^N)$ （响应生成）

2.3 分段算法：教AI学会”断句”

2.3.1 零样本分段

如何让AI自动识别对话中的主题边界？传统方法需要大量标注数据训练专门的分段模型，而SeCom采用了一个非常聪明的”零样本”方法。

核心思路：
既然GPT-4这样的大模型已经具备了强大的文本理解能力，为什么不直接让它来判断对话的主题边界呢？就像让一个文学老师来给文章分段一样。

输入预处理：
将对话会话增强为结构化格式：

1
2
3

Turn j: 
[user]: u_j
[agent]: r_j

分段提示设计：

分析以下对话，识别主题边界，将对话分割为语义连贯的段落。
每个段落应该：
1. 围绕单一主题或相关主题
2. 包含完整的交互序列
3. 具有明确的开始和结束边界

对话内容：
[对话内容]

请输出每个段落的起始和结束轮次编号。

优势：

无需训练数据，适用于开放域对话
利用LLM的强大理解能力
可处理复杂的主题转换模式

2.3.2 基于反思的分段优化

当有少量标注数据时，采用反思机制优化分段效果：

算法步骤：

初始分段：使用零样本方法对批量数据进行分段
错误识别：基于WindowDiff指标选择top-K个分段错误最大的样本
反思学习：让LLM分析分段错误，更新分段指导原则
迭代优化：重复上述过程直到收敛

反思提示设计：

分析以下分段错误，并更新分段指导原则：

错误案例：
[分段结果] vs [标准答案]

请分析错误原因并提供改进的分段指导原则。

数学表示：
设 $\boldsymbol{G}m$ 为第m轮的分段指导原则，更新公式为：
$$\boldsymbol{G}{m+1} = \boldsymbol{G}_m - \eta \nabla \mathcal{L}(\boldsymbol{G}_m)$$

其中 $\nabla \mathcal{L}(\boldsymbol{G}_m)$ 为LLM隐式估计的分段损失梯度。

2.3.3 增量分段算法

对于新增的对话轮次，设计增量分段算法：

算法流程：

输入新轮次 $\mathbf{t}{new}$ 和前一段落 $\mathbf{s}{prev}$
判断是否应该合并：$binary = f_{judge}(\mathbf{t}{new}, \mathbf{s}{prev})$
如果合并：$\mathbf{s}{prev} \leftarrow \mathbf{s}{prev} \cup {\mathbf{t}_{new}}$
否则：创建新段落 $\mathbf{s}{new} = {\mathbf{t}{new}}$

判断提示：

判断新的用户-机器人轮次是否应该与前一段落合并：

新轮次：[新轮次内容]
前一段落：[前一段落内容]

如果属于同一主题，回答"Yes"，否则回答"No"。

2.4 压缩式内存去噪

2.4.1 自然语言冗余性分析

理论基础：
根据Shannon信息论，自然语言具有高度冗余性，冗余率约为50-75%。这种冗余在人类交流中有助于错误纠正和理解，但在机器检索中构成噪声。

冗余类型：

词汇冗余：同义词、重复表达
语法冗余：冗余的语法结构
语义冗余：重复的语义信息
对话冗余：客套话、确认性回复

2.4.2 LLMLingua-2压缩原理

算法核心：
LLMLingua-2基于token重要性评分进行压缩：

重要性评分：
$$s_i = f_{score}(x_i | x_{<i}, x_{>i})$$
其中 $x_i$ 为第i个token，$x_{<i}$ 和 $x_{>i}$ 为上下文
动态压缩：
根据目标压缩率 $r$，保留top $(1-r) \times N$ 个重要token
语义保持：
通过双向上下文建模确保关键语义信息不丢失

压缩效果分析：
实验表明，75%压缩率下：

关键信息保留率 > 95%
检索相关性提升 9.46分（GPT4Score）
计算效率提升 4倍

2.4.3 压缩对检索性能的影响

相似性变化分析：
设 $sim(q, s)$ 为查询q与段落s的相似性

压缩前：$sim_{before}(q, s_{relevant})$，$sim_{before}(q, s_{irrelevant})$
压缩后：$sim_{after}(q, s’{relevant})$，$sim{after}(q, s’_{irrelevant})$

实验结果显示：

$sim_{after}(q, s’{relevant}) > sim{before}(q, s_{relevant})$ （相关段落相似性提升）
$sim_{after}(q, s’{irrelevant}) < sim{before}(q, s_{irrelevant})$ （无关段落相似性降低）

2.5 多模态检索系统

2.5.1 检索器选择与配置

BM25检索器：
$$BM25(q, d) = \sum_{i=1}^{|q|} IDF(q_i) \cdot \frac{tf(q_i, d) \cdot (k_1 + 1)}{tf(q_i, d) + k_1 \cdot (1 - b + b \cdot \frac{|d|}{avgdl})}$$

参数设置：$k_1 = 1.2$，$b = 0.75$

MPNet检索器：
基于MPNet模型的密集检索：
$$score = \cos(\mathbf{e}_q, \mathbf{e}_d)$$
其中 $\mathbf{e}_q$ 和 $\mathbf{e}_d$ 分别为查询和文档的向量表示

2.5.2 混合检索策略

结合稀疏检索和密集检索的优势：
$$score_{hybrid} = \alpha \cdot score_{BM25} + (1-\alpha) \cdot score_{MPNet}$$

通过实验确定最优权重 $\alpha = 0.6$

3. 写在最后：一些思考

3.1 SeCom给我们的启发

研读这篇论文后，笔者有几点深刻的感悟：

简单往往是最有效的：SeCom的核心思想其实很简单——分段+压缩，但正是这种简单的组合解决了复杂的问题。这提醒我们，在面对技术挑战时，有时候最朴素的想法反而是最有效的。

理解问题比解决问题更重要：作者团队深入分析了内存粒度问题的本质，发现了段落级内存的最优性。这种对问题本质的深刻理解是技术创新的基础。

笔者认为未来可能的发展方向包括：

个性化分段策略：不同用户的对话模式不同，能否学习个性化的分段方式？
实时优化机制：能否根据对话质量动态调整压缩率和分段策略？

参考资源

论文链接：SeCom: On Memory Construction and Retrieval for Personalized Conversational Agents (ICLR 2025)
项目主页：https://llmlingua.com/secom.html
代码仓库：SeCom-main项目
数据集：LOCOMO、Long-MT-Bench+、DialSeg711、TIAGE、SuperDialSeg

本文基于Microsoft和清华大学联合研究团队在ICLR 2025发表的论文撰写，详细技术实现请参考原始论文和开源代码。