问无界·答无限
问无界·答无限

2025年07月20日

上下文工程:构建智能LLM系统的权威指南

上下文工程

超越提示词,构建真正可靠、智能的AI系统。大多数AI的失败,不是模型的失败,而是上下文的失败

一场范式转移:从提示工程到上下文工程

与AI的交互正在从“提出一个好问题”演变为“构建一个完整的信息生态系统”。这不仅是术语的升级,更是思维方式和工程实践的根本转变。

提示工程

聚焦于为单次交互优化输入文本

🎯 目标: 获得一次高质量回答

🎨 性质: 静态,基于模板

🧩 核心产物: 优化的提示模板

🔧 核心技能: 语言学,逻辑

上下文工程

聚焦于为完整工作流构建动态信息系统

🚀 目标: 赋能AI可靠完成复杂任务

🌊 性质: 动态,实时组装

🏗️ 核心产物: 数据管道、RAG、内存模块

💻 核心技能: 系统架构,软件工程

上下文窗口剖析

如果LLM是CPU,那么它的上下文窗口就是RAM(工作记忆)。上下文工程的艺术在于精确地管理这块有限而宝贵的“RAM”。一个完整的“上下文包”远不止用户的提问,它由多个关键部分动态构成。

  • 指令: 模型的“宪法”,定义其角色和规则。
  • 记忆: 包括短期(对话历史)和长期(用户偏好)信息。
  • 检索信息 (RAG): 从外部知识库动态获取的事实。
  • 可用工具: 模型可以调用的API或函数定义。
  • 用户提示: 触发工作的直接输入,只是其中一部分。

上下文包构成示意

上下文管理的四大支柱

💾

写入

将信息(如用户偏好、会话摘要)持久化到上下文窗口之外,构建代理的长期与短期记忆。

🔎

选择

在正确的时间,从记忆库、知识库或工具集中检索最相关的信息,注入到上下文中。

✂️

压缩

通过摘要、修剪等方式优化上下文,在保留核心信息的同时,减少令牌消耗,适应有限的窗口。

📦

隔离

通过多代理、沙盒等方式分区上下文,让每个部分更专注于子任务,降低系统复杂性。

核心技术:检索增强生成 (RAG)

RAG是上下文工程的基石,它通过连接外部知识库,从根本上解决了LLM的“幻觉”和“知识截止”两大痛点。

RAG 基础工作流

📄

1. 索引

离线处理文档,转换为向量

🎯

2. 检索

根据用户查询,匹配最相关文本块

✍️

3. 生成

LLM基于增强上下文生成回答

战略决策:RAG vs. 微调

选择RAG还是微调(Fine-tuning)?这不是一个“非此即彼”的问题,而是根据目标选择正确的工具。最强大的系统往往是两者的结合。

  • 优先RAG:需要实时知识、高事实性、数据隐私强的场景。教会模型“说什么”。
  • 优先微调:需要教授新技能、特定风格或领域术语的场景。教会模型“如何说”。

常见的上下文失败风险

避免上下文灾难

即使有了强大的技术,设计不良的上下文系统也可能导致灾难性的失败。识别并规避这些常见的“上下文陷阱”至关重要。

上下文投毒

一个错误信息污染了后续所有推理。解决方案: 实施事实核查,使用可信知识源。

上下文分心

无关信息过多,淹没了核心指令。解决方案: 严格过滤和重排序,摘要和修剪上下文。

上下文冲突

上下文中的信息相互矛盾,使模型困惑。解决方案: 设定冲突处理规则,进行数据去重。

未来已来:上下文工程的演进

上下文工程正朝着更智能、更自动化的方向发展。从自适应系统多模态RAG,再到更高阶的工作流工程,掌握上下文工程,就是掌握构建下一代AI系统的钥匙。