记忆与上下文

前两卷解决了两个问题：大模型是怎么工作的，以及 Agent 是怎么从"会说话"变成"能做事"的。但有一个问题一直被搁置着——它不记得。
昨天你花了一整天教会它你的项目结构、代码规范、技术选型，今天打开新会话，一切归零。它不是忘了，而是从来没有"记住"过——每次推理都是一个无状态的纯函数，上下文窗口关闭的那一刻，所有信息都消失了。这个限制不是某个产品的缺陷，而是大模型架构的基本特征。
那怎么办？工程师们设计了记忆体系——会话记忆、项目记忆、全局记忆——在模型外部建立持久化存储，在每次调用时把相关的记忆注入上下文。但上下文不是免费的。每一个 Token 都有成本——金钱成本、延迟成本、注意力稀释成本。把所有东西都塞进上下文不是解决方案，而是新的问题。
怎么在有限的窗口里让每一个 Token 都发挥最大价值？这是上下文工程要回答的问题。而当模型需要的知识根本不在训练数据中——你公司的内部框架、你团队三十万行的代码库——怎么让它在每次调用时只把相关的那一小块捞进窗口？从早期的 RAG，到今天 AI 自己在仓库里跳定义、读调用链的代码库原生检索，工程上的解法一直在演化。
这一卷的三章，从"怎么让 AI 记住"到"怎么管理上下文成本"到"怎么注入外部知识"，解决的是同一个根本问题：大模型的知识和记忆都是有限的，工程师怎么在这个限制下建立有效的信息供给体系。