跳转至

记忆与上下文

前两卷解决了两个问题:大模型是怎么工作的,以及 Agent 是怎么从"会说话"变成"能做事"的。但有一个问题一直被搁置着——它不记得。
昨天你花了一整天教会它你的项目结构、代码规范、技术选型,今天打开新会话,一切归零。它不是忘了,而是从来没有"记住"过——每次推理都是一个无状态的纯函数,上下文窗口关闭的那一刻,所有信息都消失了。这个限制不是某个产品的缺陷,而是大模型架构的基本特征。
那怎么办?工程师们设计了记忆体系——会话记忆、项目记忆、全局记忆——在模型外部建立持久化存储,在每次调用时把相关的记忆注入上下文。但上下文不是免费的。每一个 Token 都有成本——金钱成本、延迟成本、注意力稀释成本。把所有东西都塞进上下文不是解决方案,而是新的问题。
怎么在有限的窗口里让每一个 Token 都发挥最大价值?这是上下文工程要回答的问题。而当模型需要的知识根本不在训练数据中——你公司的内部框架、你团队的私有文档——怎么让模型"知道"它没见过的东西?RAG、微调、长上下文,三条路各有代价和边界。
这一卷的三章,从"怎么让 AI 记住"到"怎么管理上下文成本"到"怎么注入外部知识",解决的是同一个根本问题:大模型的知识和记忆都是有限的,工程师怎么在这个限制下建立有效的信息供给体系。