核心理论知识 在线查询阶段(Online Phase)流程 用户提问 → Top-K 检索 → Prompt 设计 → Token 控制 → LLM 生成 → 回答 关键步骤: - Top-K 检索:从向量数据库召回最相关的 K 个文档片段 - Prompt 设计:将检索结果与问题组合成合适的提示词 - Token 控制:管理上下文窗口,优化成本和性能 - LLM 生成:基于上下文生成精准答案 Token 预算控制(重点!) 为什么要控制 Token 预算? 原因 说明 模型限制 所有 LLM 都有上下文窗口上限(…

2026年3月30日 58点热度 xxs9331 阅读全文

概述 任务 日 一 二 三 四 五 六 数据标注 120 4 2 2 RAG 课程 5h 5 泛化性实验 5 论文写作 1 1 谷子项目更新 3 1 2 5 总结 上周(3-4 周:22-28 日)完成情况 数据标注 120:5 天,本周目标 720 条 ✅ 已完成 常态化任务:5 天,基本保持节奏(24 日 5/5、25-28 日完成) 论文阅读+AI 综述:4 天(24、25、27、28 日),以整理为主 RAG 课程 5h:1 天(仅 28 日),离线索引阶段完成 75% ❌ 未坚持每晚 1h 泛化性实验:2…

2026年3月30日 7点热度 xxs9331 阅读全文

离线索引流概览 RAG 系统的两条数据流 数据流 英文 输入 处理流程 输出 离线索引流 Indexing Pipeline 原始文档(PDF/TXT/MD) 文档加载 → 文本切分 → 向量化 → FAISS 索引 向量索引文件(.index + .json) 在线查询流 Query Pipeline 用户提问 向量化 → 检索 → Prompt → LLM 生成 AI 生成的答案 离线索引流的目标 输入:PDF、TXT、Markdown 等原始文档 输出:可检索的向量索引文件(.index + .json) 特…

2026年3月28日 28点热度 xxs9331 阅读全文

概述 任务 日 一 二 三 四 五 六 数据标注 120 5 实验计划更新 7 论文阅读常态化 4 RAG 课程 5h 谷子项目更新 5 5 5 总结 上周(3-3 周:15-21 日)完成情况 数据标注 120:2 天(3-16 完成一天,用户确认还有一天),最新 ID 12920 论文阅读常态化:3 天(3-16、3-17、3-19) RAG 课程 5h:0 天,完全未学习 实验计划更新:词典、BS、Focal Loss 模块均有提升,消融实验完成 ✅ 谷子项目更新:全部完成(Superpowers、年份筛选、…

2026年3月23日 24点热度 xxs9331 阅读全文

概述 任务 日 一 二 三 四 五 六 数据标注 120 0 - 120 120 0 - - 实验计划更新 0 - - - - - 部分 论文阅读常态化 0 - - - - - 5 RAG 课程 5h - 5 - - 3 4 0 博客抽取机制 - - - - - - 0 总结 完成情况统计 数据标注:仅完成 2 天(12 日、13 日),共 240 条,完成率 67%。14 日中断导致连续性丢失 ⚠️ 论文阅读:12 日启动、14 日完成 5 篇,但未形成常态化习惯 实验计划:存在明显逃避心理,第三个模块设计一直未…

2026年3月15日 37点热度 xxs9331 阅读全文

概述 任务 日 一 二 三 四 五 六 数据标注 120 0 长势文档书写 8 0 10 2 RAG课程 5h 3 4 实验计划更新 0 论文阅读 0 书稿校对 2 总结 添加了运动习惯,导致在实验室精力不足 实验计划一直没有开启,对于实验论文有些逃避。 数据标注虽然是垃圾任务,但是还要写。而且是必须要做。 论文阅读一直没有常态化,这样实验就没有办法获取新观点。 RAG课程也没有养成习惯。 计划 任务 描述 数据标注 120 保持执行,垃圾任务也要完成 实验计划更新 优先启动,不再逃避,完成第三个模块实验设计 论文…

2026年3月12日 53点热度 xxs9331 阅读全文

总结 放假了一周,上周基本什么都没写。 先把项目文档写完,然后是实验计划, 然后是课程计划,然后是数据标注,加上一点论文阅读,这三个东西看下能不能养成长期的习惯。 计划 任务 描述 数据标注120 不用动脑 长势文档书写 包括项目组回来后的简短任务 RAG课程5h 简短上课,代码不需要太细 实验计划更新 更新第三个模块实验,画图然后写说明 论文阅读 在论文里边找下NER的创新点

2026年3月2日 83点热度 xxs9331 阅读全文