上下文窗口(Context Window),指大型语言模型在单次推理过程中,能够接收并处理的输入文本(包括用户提示词、系统指令及历史对话等)的最大长度限制,通常以令牌(Token)数量来衡量。
您可以将上下文窗口想象成一个“工作记忆白板”。当您向AI提问时,您提供的所有文字信息都会被转换成令牌(对于英文,一个词或词的一部分可能是一个令牌;对于中文,一个字或词通常是一个令牌),并放置在这个白板上。模型只能“看到”并基于这块白板上的内容进行思考和生成回答。白板的大小是固定的,一旦输入内容超出其容量,最早进入的信息就会被“擦除”,模型将无法再参考这部分内容。其技术核心通常基于Transformer架构中的注意力机制,该机制需要计算输入序列中每个令牌与其他所有令牌的关联度,计算量随序列长度呈平方级增长,因此设置上限是平衡性能与成本的关键。

理解上下文窗口,常需关联以下概念:
令牌(Token)、
注意力机制(Attention Mechanism)、
Transformer架构、
提示词工程(Prompt Engineering)、
检索增强生成(RAG)。

若想深入了解上下文窗口的技术演进与挑战,可以关注关于“Transformer位置编码”、“KV缓存优化”以及“长文本处理技术(如滑动窗口注意力、层次化注意力)”的学术论文或技术博客。同时,理解检索增强生成(RAG)如何作为一项关键技术,通过外部知识库突破固定上下文窗口的限制,也具有重要实践意义。

