上下文工程：构建智能LLM系统的权威指南

上下文工程

超越提示词，构建真正可靠、智能的AI系统。大多数AI的失败，不是模型的失败，而是上下文的失败。

一场范式转移：从提示工程到上下文工程

与AI的交互正在从“提出一个好问题”演变为“构建一个完整的信息生态系统”。这不仅是术语的升级，更是思维方式和工程实践的根本转变。

提示工程

聚焦于为单次交互优化输入文本

🎯 目标: 获得一次高质量回答

🎨 性质: 静态，基于模板

🧩 核心产物: 优化的提示模板

🔧 核心技能: 语言学，逻辑

上下文工程

聚焦于为完整工作流构建动态信息系统

🚀 目标: 赋能AI可靠完成复杂任务

🌊 性质: 动态，实时组装

🏗️ 核心产物: 数据管道、RAG、内存模块

💻 核心技能: 系统架构，软件工程

上下文窗口剖析

如果LLM是CPU，那么它的上下文窗口就是RAM（工作记忆）。上下文工程的艺术在于精确地管理这块有限而宝贵的“RAM”。一个完整的“上下文包”远不止用户的提问，它由多个关键部分动态构成。

指令: 模型的“宪法”，定义其角色和规则。
记忆: 包括短期（对话历史）和长期（用户偏好）信息。
检索信息 (RAG): 从外部知识库动态获取的事实。
可用工具: 模型可以调用的API或函数定义。
用户提示: 触发工作的直接输入，只是其中一部分。

上下文包构成示意

上下文管理的四大支柱

💾

写入

将信息（如用户偏好、会话摘要）持久化到上下文窗口之外，构建代理的长期与短期记忆。

🔎

选择

在正确的时间，从记忆库、知识库或工具集中检索最相关的信息，注入到上下文中。

✂️

压缩

通过摘要、修剪等方式优化上下文，在保留核心信息的同时，减少令牌消耗，适应有限的窗口。

📦

隔离

通过多代理、沙盒等方式分区上下文，让每个部分更专注于子任务，降低系统复杂性。

核心技术：检索增强生成 (RAG)

RAG是上下文工程的基石，它通过连接外部知识库，从根本上解决了LLM的“幻觉”和“知识截止”两大痛点。

RAG 基础工作流

📄

1. 索引

离线处理文档，转换为向量

🎯

2. 检索

根据用户查询，匹配最相关文本块

✍️

3. 生成

LLM基于增强上下文生成回答

战略决策：RAG vs. 微调

选择RAG还是微调（Fine-tuning）？这不是一个“非此即彼”的问题，而是根据目标选择正确的工具。最强大的系统往往是两者的结合。

✓
优先RAG：需要实时知识、高事实性、数据隐私强的场景。教会模型“说什么”。
✓
优先微调：需要教授新技能、特定风格或领域术语的场景。教会模型“如何说”。

常见的上下文失败风险

避免上下文灾难

即使有了强大的技术，设计不良的上下文系统也可能导致灾难性的失败。识别并规避这些常见的“上下文陷阱”至关重要。

上下文投毒

一个错误信息污染了后续所有推理。解决方案: 实施事实核查，使用可信知识源。

上下文分心

无关信息过多，淹没了核心指令。解决方案: 严格过滤和重排序，摘要和修剪上下文。

上下文冲突

上下文中的信息相互矛盾，使模型困惑。解决方案: 设定冲突处理规则，进行数据去重。

2025年09月29日

一场范式转移：从提示工程到上下文工程

提示工程

上下文工程

上下文窗口剖析

上下文包构成示意

上下文管理的四大支柱

写入

选择

压缩

隔离

核心技术：检索增强生成 (RAG)

RAG 基础工作流

战略决策：RAG vs. 微调

常见的上下文失败风险

避免上下文灾难

上下文投毒

上下文分心

上下文冲突