RAG - 世界树

核心理论知识在线查询阶段流程用户提问 → Top-K 检索 → Prompt 设计 → Token 控制 → LLM 生成 → 回答关键步骤： Top-K 检索：从向量数据库召回最相关的 K 个文档片段 Prompt 设计：将检索结果与问题组合成合适的提示词 Token 控制：管理上下文窗口，优化成本和性能 LLM 生成：基于上下文生成精准答案 Token 预算控制为什么要控制 Token 预算？原因说明模型限制所有 LLM 都有上下文窗口上限（如 GPT-4: 128K tokens）成本控制 …