核心理论知识 在线查询阶段流程 用户提问 → Top-K 检索 → Prompt 设计 → Token 控制 → LLM 生成 → 回答 关键步骤: Top-K 检索:从向量数据库召回最相关的 K 个文档片段 Prompt 设计:将检索结果与问题组合成合适的提示词 Token 控制:管理上下文窗口,优化成本和性能 LLM 生成:基于上下文生成精准答案 Token 预算控制 为什么要控制 Token 预算? 原因 说明 模型限制 所有 LLM 都有上下文窗口上限(如 GPT-4: 128K tokens) 成本控制 …

2026年3月30日 232点热度 xxs9331 阅读全文

从零RAG入门与大模型知识库问答系统开发实战!LangChain RAG API全体系教学,手撕工业级Agentic RAG系统开发!_哔哩哔哩_bilibili

2025年9月14日 451点热度 xxs9331 阅读全文