生成式人工智能与机器学习导论2025 · 第2讲:上下文工程(Context Engineering)——AI Agent 背后的关键技术
生成式人工智能与机器学习导论2025 · 第2讲:上下文工程(Context Engineering)——AI Agent 背后的关键技术在生成式人工智能(Generative AI)与大型语言模型(Large Language Model, LLM)不断演进的浪潮中,上下文工程(Context Engineering)逐渐被公认为推动 AI Agent 真正具备智能行为的关键基础。它不仅是 Prompt Engineering 的延伸,更是让模型能够整合世界知识、记忆、个人偏好与任务约束的系统性方法论。
本文深入整理台大李宏毅教授于《生成式人工智能与机器学习导论2025》第2讲中的核心观点,并扩充理论背景与实务应用,从概念源起、技术结构到未来发展方向,全方位阐述 Context Engineering 的核心价值与挑战。我们将从语言模型的本质出发,探讨为什么在 AI Agent 时代,Context Engineering 成为了一项关键的技术。
我们在本文中所指的 AI Agent本文的 AI Agent 指:人类仅给定“目标(Goal)”,由 Agent 自主在“观察(Obser ...
SeCom: Redefining Memory Management in Conversational AI
SeCom: Redefining Memory Management in Conversational AIForewordI’ve recently been diving into memory management for dialog-based AI, especially how to construct and retrieve memories in long-term conversations. During my exploration I came across an eye-opening ICLR 2025 paper—**”SeCom: On Memory Construction and Retrieval for Personalized Conversational Agents”**—a collaboration between Microsoft and Tsinghua University.
SeCom solves a core problem: How can an agent effectively manage and retr ...
SeCom: 重新定义对话AI的记忆管理
SeCom: 重新定义对话AI的记忆管理写在前面最近笔者一直在研究对话AI中的内存管理问题,特别是长期对话场景下的记忆构建与检索技术。发现了一篇令人眼前一亮的ICLR 2025论文——《SeCom: On Memory Construction and Retrieval for Personalized Conversational Agents》,由Microsoft和清华大学的研究团队联合发表。
这篇论文提出的SeCom方法巧妙地解决了一个核心问题:如何在长期对话中有效管理和检索历史信息?今天想和大家分享一下这个方法的技术细节和创新点,希望能为从事相关研究的朋友们提供一些启发。
1. 为什么我们需要关注对话内存管理?1.1 长期对话的现实挑战在与LLMs的日常交互中,相信大家都遇到过这样的困扰:当对话变得很长时,AI似乎”忘记”了之前讨论的内容,或者给出的回答与前面的上下文不够连贯。这背后反映的正是长期对话中的内存管理挑战。
随着大语言模型技术的成熟,基于LLM的对话代理已经深入到我们生活的方方面面。但是,当我们希望与AI进行真正的长期、个性化交互时——比如跨越数天、数周的项目讨 ...
Decoder-only与Encoder-only模型Padding策略的差异
📌 Padding 的含义在大模型 (LLM) 中,padding 是用于将不同长度的序列调整为同一长度的方法,以便于批量 (batch) 处理。
例如:
12句子1: "I love NLP"句子2: "Padding is useful in LLM training"
使用 <pad> token 进行对齐:
12"I love NLP <pad> <pad> <pad>""Padding is useful in LLM training"
📌 Padding 位置的选择:Left vs RightPadding 有两种常见方式:
Right padding(右填充):
1"I love NLP <pad> <pad>"
Left padding(左填充):
1"<pad> <pad> I love NLP"
通常:
Decoder-only 模型(如 GPT, Llama):采用 Left padding
Encoder-only 模型(如 BERT):采用 Ri ...
Differences in Padding Strategies Between Decoder-only and Encoder-only Models
📌 What is Padding?In Large Language Models (LLMs), padding is a method used to standardize sequence lengths for batch processing.
For example:
12Sentence 1: "I love NLP"Sentence 2: "Padding is useful in LLM training"
Using the <pad> token for alignment:
12"I love NLP <pad> <pad> <pad>""Padding is useful in LLM training"
📌 Padding Positioning: Left vs RightThere are two common padding strategies:
Right padding:
1"I love NLP <pad> <pad>"
Left padding:
1"& ...
MoE模型的的可视化指南:揭秘 MoE 在大型语言模型中的角色
MoE 模型的的可视化指南:揭秘 MoE 在大型语言模型中的角色原文地址:A Visual Guide to Mixture of Experts (MoE)
📅 作者:Maarten Grootendorst
📆 日期:2024 年 10 月 7 日
探索语言模型:混合专家模型(MoE)可视化指南目录
MoE 模型的的可视化指南:揭秘 MoE 在大型语言模型中的角色
探索语言模型:混合专家模型(MoE)可视化指南
目录
什么是混合专家(MoE)模型?
Experts
Dense Layers
Sparse Layers
What does an Expert Learn?
专家的架构(Architecture of Experts)
当我们查看最新发布的大型语言模型(LLMs,Large Language Models)时,常常会在标题中看到 “MoE”。这个 “MoE” 代表什么?为什么这么多 LLM 都在使用它?
在这份可视化指南中,我们会通过 50 多个可视化图示,逐步探索这一关键组件:**Mixture of Experts (MoE)**。
图示内容:在 ...
推理 LLM 的可视化指南:探索推理时计算技术与 DeepSeek-R1
推理 LLM 的可视化指南:探索推理时计算技术与 DeepSeek-R1原文地址:A Visual Guide to Reasoning LLMs
📅 作者:Maarten Grootendorst
📆 日期:2025 年 2 月 3 日
📌 引言DeepSeek-R1、OpenAI o3-mini 和 Google Gemini 2.0 Flash Thinking 是如何通过“推理”框架将 LLM(大型语言模型, Large Language Models) 扩展到新高度的典型示例。
它们标志着从 扩展训练时计算(train-time compute) 到 扩展推理时计算(test-time compute) 的范式转变。
在本篇文章中,我们提供了 超过 40 张定制可视化图表,带你深入探索:
推理 LLM(Reasoning LLMs) 领域
推理时计算(Test-Time Compute) 机制
DeepSeek-R1 的核心思想
我们将逐步介绍相关概念,帮助你建立对这一新范式的直觉理解。
📖 什么是推理 LLM?与普通 LLM(Large Language ...
No title
Evaluation of Generation-Based Large Language Models (LLMs): Opportunities and Challenges from Generation to JudgmentAbstractEvaluation tasks in artificial intelligence (AI) and natural language processing (NLP) have long been challenging. Traditional evaluation methods, such as those based on matching or embeddings, are limited in assessing complex attributes. The recent development of large language models (LLMs) has given rise to the “LLM-as-a-Judge” paradigm, which utilizes LLMs for scoring, ...
基于生成的大语言模型(LLM)评估:从生成到判断的机遇与挑战
基于生成的大语言模型(LLM)评估:从生成到判断的机遇与挑战摘要人工智能(AI)与自然语言处理(NLP)领域中的评估任务长期面临挑战。传统的评估方法(如基于匹配或嵌入的技术)在判断复杂属性时效果有限。近期大语言模型(LLM)的发展催生了“LLM-as-a-Judge”范式,利用LLM对任务进行评分、排序或选择。本论文对LLM评估方法进行了全面综述,包括其定义、分类框架、评估基准,以及未来的研究方向。
1. 引言1.1 背景评估是机器学习和NLP的核心问题之一,传统评估方法如BLEU和ROUGE通常基于文本重叠,缺乏对复杂场景的适用性。随着深度学习和LLM的发展(如GPT-4),研究者提出了“LLM-as-a-Judge”模式,以解决传统评估的局限。
1.2 研究问题本论文旨在探讨以下问题:
评估内容:LLM评估什么?
评估方法:如何进行评估?
应用场景:LLM在哪里评估?
2. 预备知识2.1 输入格式评估输入可分为:
点对点(Point-Wise):单个样本评估。
对/列表评估(Pair/List-Wise):多个样本的比较评估。
2.2 输出格式评估输出包括:
评分 ...