核心理论知识 在线查询阶段(Online Phase)流程 用户提问 → Top-K 检索 → Prompt 设计 → Token 控制 → LLM 生成 → 回答 关键步骤: - Top-K 检索:从向量数据库召回最相关的 K 个文档片段 - Prompt 设计:将检索结果与问题组合成合适的提示词 - Token 控制:管理上下文窗口,优化成本和性能 - LLM 生成:基于上下文生成精准答案 Token 预算控制(重点!) 为什么要控制 Token 预算? 原因 说明 模型限制 所有 LLM 都有上下文窗口上限(…