2025年07月20日
上下文工程
超越提示词,构建真正可靠、智能的AI系统。大多数AI的失败,不是模型的失败,而是上下文的失败。
一场范式转移:从提示工程到上下文工程
与AI的交互正在从“提出一个好问题”演变为“构建一个完整的信息生态系统”。这不仅是术语的升级,更是思维方式和工程实践的根本转变。
提示工程
聚焦于为单次交互优化输入文本
🎯 目标: 获得一次高质量回答
🎨 性质: 静态,基于模板
🧩 核心产物: 优化的提示模板
🔧 核心技能: 语言学,逻辑
上下文工程
聚焦于为完整工作流构建动态信息系统
🚀 目标: 赋能AI可靠完成复杂任务
🌊 性质: 动态,实时组装
🏗️ 核心产物: 数据管道、RAG、内存模块
💻 核心技能: 系统架构,软件工程
上下文窗口剖析
如果LLM是CPU,那么它的上下文窗口就是RAM(工作记忆)。上下文工程的艺术在于精确地管理这块有限而宝贵的“RAM”。一个完整的“上下文包”远不止用户的提问,它由多个关键部分动态构成。
- 指令: 模型的“宪法”,定义其角色和规则。
- 记忆: 包括短期(对话历史)和长期(用户偏好)信息。
- 检索信息 (RAG): 从外部知识库动态获取的事实。
- 可用工具: 模型可以调用的API或函数定义。
- 用户提示: 触发工作的直接输入,只是其中一部分。
上下文包构成示意
上下文管理的四大支柱
写入
将信息(如用户偏好、会话摘要)持久化到上下文窗口之外,构建代理的长期与短期记忆。
选择
在正确的时间,从记忆库、知识库或工具集中检索最相关的信息,注入到上下文中。
压缩
通过摘要、修剪等方式优化上下文,在保留核心信息的同时,减少令牌消耗,适应有限的窗口。
隔离
通过多代理、沙盒等方式分区上下文,让每个部分更专注于子任务,降低系统复杂性。
核心技术:检索增强生成 (RAG)
RAG是上下文工程的基石,它通过连接外部知识库,从根本上解决了LLM的“幻觉”和“知识截止”两大痛点。
RAG 基础工作流
📄
1. 索引
离线处理文档,转换为向量
🎯
2. 检索
根据用户查询,匹配最相关文本块
✍️
3. 生成
LLM基于增强上下文生成回答
战略决策:RAG vs. 微调
选择RAG还是微调(Fine-tuning)?这不是一个“非此即彼”的问题,而是根据目标选择正确的工具。最强大的系统往往是两者的结合。
-
✓
优先RAG:需要实时知识、高事实性、数据隐私强的场景。教会模型“说什么”。
-
✓
优先微调:需要教授新技能、特定风格或领域术语的场景。教会模型“如何说”。
常见的上下文失败风险
避免上下文灾难
即使有了强大的技术,设计不良的上下文系统也可能导致灾难性的失败。识别并规避这些常见的“上下文陷阱”至关重要。
上下文投毒
一个错误信息污染了后续所有推理。解决方案: 实施事实核查,使用可信知识源。
上下文分心
无关信息过多,淹没了核心指令。解决方案: 严格过滤和重排序,摘要和修剪上下文。
上下文冲突
上下文中的信息相互矛盾,使模型困惑。解决方案: 设定冲突处理规则,进行数据去重。