黑头呆鱼进化之旅

论文深读｜SLA2: Sparse-Linear Attention with Learnable Routing and QAT

发表于2026-02-21|NLP Insights

今天这篇按“口试级精读模板”来拆。论文：SLA2: Sparse-Linear Attention with Learnable Routing and QAT arXiv：https://arxiv.org/abs/2602.12675 新鲜度：7 天内关注度：Hugging Face Daily Papers 点赞 47 0) 先归类：这篇论文属于哪一类？我先把它归为：系统/推理优化 + 架构改进（偏 attention 机制）。这类论文的读法重点：结构图与信息流是否真的更简洁复杂度与推理成本是否可量化下降吞吐/延迟/显存是否同时受益，而不是只优化一个指标 1) 10分钟快读：先拿主结论按顺序只读四块：Abstract → Method Overview 图 → Contributions → 主实验表。 What / Why / How / How much What：提出 SLA2，对稀疏-线性注意力做可学习路由与更直接的组合方式。 Why：原始 SLA 的启发式分流可能次优，且分解形式与目标存在误差。 How（一句话）：用可学习 router 决定稀...

evaluation-of-generation-based-large-language-models-llms-opportunities-and-challenges-from-generation-to-judgment

发表于2026-02-21

Evaluation of Generation-Based Large Language Models (LLMs): Opportunities and Challenges from Generation to JudgmentAbstractEvaluation tasks in artificial intelligence (AI) and natural language processing (NLP) have long been challenging. Traditional evaluation methods, such as those based on matching or embeddings, are limited in assessing complex attributes. The recent development of large language models (LLMs) has given rise to the “LLM-as-a-Judge” paradigm, which utilizes LLMs for scori...

SeCom: 重新定义对话AI的记忆管理

发表于2025-06-24|NLP Insights

SeCom: 重新定义对话AI的记忆管理写在前面最近笔者一直在研究对话AI中的内存管理问题，特别是长期对话场景下的记忆构建与检索技术。发现了一篇令人眼前一亮的ICLR 2025论文——《SeCom: On Memory Construction and Retrieval for Personalized Conversational Agents》，由Microsoft和清华大学的研究团队联合发表。这篇论文提出的SeCom方法巧妙地解决了一个核心问题：如何在长期对话中有效管理和检索历史信息？今天想和大家分享一下这个方法的技术细节和创新点，希望能为从事相关研究的朋友们提供一些启发。 1. 为什么我们需要关注对话内存管理？1.1 长期对话的现实挑战在与LLMs的日常交互中，相信大家都遇到过这样的困扰：当对话变得很长时，AI似乎”忘记”了之前讨论的内容，或者给出的回答与前面的上下文不够连贯。这背后反映的正是长期对话中的内存管理挑战。随着大语言模型技术的成熟，基于LLM的对话代理已经深入到我们生活的方方面面。但是，当我们希望与AI进行真正的长期、个性化交互时——比如跨越数天、数周的...

Decoder-only与Encoder-only模型Padding策略的差异

发表于2025-03-06|NLP Insights

📌 Padding 的含义在大模型 (LLM) 中，padding 是用于将不同长度的序列调整为同一长度的方法，以便于批量 (batch) 处理。例如： 12句子1: "I love NLP"句子2: "Padding is useful in LLM training" 使用 <pad> token 进行对齐： 12"I love NLP <pad> <pad> <pad>""Padding is useful in LLM training" 📌 Padding 位置的选择：Left vs RightPadding 有两种常见方式： Right padding（右填充）： 1"I love NLP <pad> <pad>" Left padding（左填充）： 1"<pad> <pad> I love NLP" 通常： Decoder-only 模型（如 GPT, Llama）：采用 Left padding Encoder-only 模型（如 BERT）：采用...

MoE模型的的可视化指南：揭秘 MoE 在大型语言模型中的角色

发表于2025-02-11|NLP Insights

MoE 模型的的可视化指南：揭秘 MoE 在大型语言模型中的角色原文地址：A Visual Guide to Mixture of Experts (MoE) 📅 作者：Maarten Grootendorst 📆 日期：2024 年 10 月 7 日探索语言模型：混合专家模型（MoE）可视化指南目录 MoE 模型的的可视化指南：揭秘 MoE 在大型语言模型中的角色探索语言模型：混合专家模型（MoE）可视化指南目录什么是混合专家（MoE）模型？ Experts Dense Layers Sparse Layers What does an Expert Learn? 专家的架构（Architecture of Experts）当我们查看最新发布的大型语言模型（LLMs，Large Language Models）时，常常会在标题中看到 “MoE”。这个 “MoE” 代表什么？为什么这么多 LLM 都在使用它？在这份可视化指南中，我们会通过 50 多个可视化图示，逐步探索这一关键组件：**Mixture of Experts (MoE)**。图示内...

推理 LLM 的可视化指南：探索推理时计算技术与 DeepSeek-R1

发表于2025-02-11|NLP Insights

推理 LLM 的可视化指南：探索推理时计算技术与 DeepSeek-R1原文地址：A Visual Guide to Reasoning LLMs 📅 作者：Maarten Grootendorst 📆 日期：2025 年 2 月 3 日 📌 引言DeepSeek-R1、OpenAI o3-mini 和 Google Gemini 2.0 Flash Thinking 是如何通过“推理”框架将 LLM（大型语言模型, Large Language Models）扩展到新高度的典型示例。它们标志着从扩展训练时计算（train-time compute）到扩展推理时计算（test-time compute）的范式转变。在本篇文章中，我们提供了超过 40 张定制可视化图表，带你深入探索：推理 LLM（Reasoning LLMs）领域推理时计算（Test-Time Compute）机制 DeepSeek-R1 的核心思想我们将逐步介绍相关概念，帮助你建立对这一新范式的直觉理解。 📖 什么是推理 LLM？与普通 LLM（Large Langu...

追逐与倒影

发表于2024-12-11|Life Reflections

追逐与倒影在清晨的第一缕光洒下之前，世间一切尚未显形。光与影的边界模糊，彷佛可以交叠，又彷佛注定分离。人们常说，朝阳是希望的象征，可它升起时，必将抛下一地影子。光和影之间，究竟是追逐还是相伴？这样的思考让我想起一则古老的寓言：一匹马在沙漠中追逐远方的绿洲，却不知道那不过是海市蜃楼，它每前进一步，绿洲也随之远去。有时我们追寻的目标，如同沙漠中的绿洲一般，它并非虚无，但也不完全真实。它是一种存在于心中的映像，一个无法企及的彼岸。无论我们怎样靠近，那份距离似乎总是恒定，甚至在我们伸手触碰的一刹那，它便如烟雾般消散。是目标变了，还是我们的执念让它愈加模糊？镜中的倒影也是如此。当你站在镜前凝视自己时，你看见的那个“你”，究竟是谁？是一个忠实的再现，还是一场温柔的欺骗？镜中的倒影总会回应你的动作，可是你永远无法拥抱它，甚至连碰触都无法做到。这种触不可及的关系，既令人惋惜，又教人思索。倘若生命中许多事物都像这面镜子，是否意味着我们注定只能遥望，却无法真正拥有？ “人类最大的悲剧在于，他们注定要追求那些不可得之物。”起初，我对这句话嗤之以鼻。世界这么大，怎么可能所有的追求都是徒劳？然而，当经...

基于生成的大语言模型（LLM）评估：从生成到判断的机遇与挑战

发表于2024-12-06|NLP Insights

基于生成的大语言模型（LLM）评估：从生成到判断的机遇与挑战摘要人工智能（AI）与自然语言处理（NLP）领域中的评估任务长期面临挑战。传统的评估方法（如基于匹配或嵌入的技术）在判断复杂属性时效果有限。近期大语言模型（LLM）的发展催生了“LLM-as-a-Judge”范式，利用LLM对任务进行评分、排序或选择。本论文对LLM评估方法进行了全面综述，包括其定义、分类框架、评估基准，以及未来的研究方向。 1. 引言1.1 背景评估是机器学习和NLP的核心问题之一，传统评估方法如BLEU和ROUGE通常基于文本重叠，缺乏对复杂场景的适用性。随着深度学习和LLM的发展（如GPT-4），研究者提出了“LLM-as-a-Judge”模式，以解决传统评估的局限。 1.2 研究问题本论文旨在探讨以下问题：评估内容：LLM评估什么？评估方法：如何进行评估？应用场景：LLM在哪里评估？ 2. 预备知识2.1 输入格式评估输入可分为：点对点（Point-Wise）：单个样本评估。对/列表评估（Pair/List-Wise）：多个样本的比较评估。 2.2 输出格式评估输出包括： ...

身份与主体性的反思

发表于2024-12-03|Life Reflections

永居申请被拒：身份与主体性的反思当我接到永居申请被拒的消息时，短暂的愣神之后，内心涌动的却并非单纯的挫败，而是一种奇异的“生存论困境”感。表面上，这似乎只是一次行政结果的体现，但其背后却深刻折射了当代全球流动性结构与主体性建构之间的多重张力。在全球化与国家主权的张力下，个体身份的确认究竟是否可能？当永居申请被拒时，是否意味着个体被象征性地排除在某种集体意义之外？永居申请：从权利幻想到身份迷宫在吉登斯的“现代性与自我认同”理论框架下，永居申请不仅是一种居留权的争取，更是一种对身份稳定性与未来可能性的符号化追求。然而，在全球化语境下，这种追求往往陷入德里达所描述的“延异”结构：权利的实现总是被推迟，身份的确认总是悬置。在此情境中，申请被拒的结果无异于一种符号暴力。它不仅断裂了我对未来的规划，也撕裂了我在这一场域中的主体性幻象。主体性与制度规训的对抗布尔迪厄的场域理论揭示了权力在社会实践中的分布方式，而永居申请这一制度实践正是权力规训个体的具体化场域。拒绝不仅是一种行政结果，更是一种对主体的隐形规训，暗示了平台资本主义时代个体与制度之间的权力失衡。福柯的规训视角让我...

【Leetcode Python题解】「1346. Check If N and Its Double Exist」

发表于2024-12-02|Code Chronicles

【Leetcode Python题解】「1346. Check If N and Its Double Exist」题目：1346. Check If N and Its Double Exist题目描述给定一个整数数组 arr，检查是否存在两个不同的索引 i 和 j，满足： i != j 0 <= i, j < arr.length arr[i] == 2 * arr[j] 示例示例 1: 123输入：arr = [10,2,5,3]输出：true解释：对于 i = 0 和 j = 2，arr[i] = 10 等于 2 * 5 = 2 * arr[j] 示例 2: 123输入：arr = [3,1,7,11]输出：false解释：不存在满足条件的 i 和 j。约束条件 2 <= arr.length <= 500 -10³ <= arr[i] <= 10³ 解题思路这道题可以用多种方法解决，我们来分析两种主要的解法：暴力解法和哈希表解法。 1. 暴力解法最直观的解法是使用两层循环，遍历所有可能的数对。 1234567def che...