核心理论知识 在线查询阶段流程 用户提问 → Top-K 检索 → Prompt 设计 → Token 控制 → LLM 生成 → 回答 关键步骤: Top-K 检索:从向量数据库召回最相关的 K 个文档片段 Prompt 设计:将检索结果与问题组合成合适的提示词 Token 控制:管理上下文窗口,优化成本和性能 LLM 生成:基于上下文生成精准答案 Token 预算控制 为什么要控制 Token 预算? 原因 说明 模型限制 所有 LLM 都有上下文窗口上限(如 GPT-4: 128K tokens) 成本控制 …

2026年3月30日 232点热度 xxs9331 阅读全文

离线索引流概览 RAG 系统的两条数据流 数据流 英文 输入 处理流程 输出 离线索引流 Indexing Pipeline 原始文档<br/>(PDF/TXT/MD) 文档加载 → 文本切分 → 向量化 → FAISS 索引 向量索引文件<br/>(.index + .json) 在线查询流 Query Pipeline 用户提问 向量化 → 检索 → Prompt → LLM 生成 AI 生成的答案 离线索引流的目标 输入:PDF、TXT、Markdown 等原始文档 输出:可检索的向量…

2026年3月28日 134点热度 xxs9331 阅读全文

环境准备 git配置 git config --global user.name "Your Name" git config --global user.email "email@example.com" 验证安装 git --version 代码操作 初始化仓库 上传到github 代码推送 查看提交 git log 项目创建 远程添加 git代理 设置代理 //http || https git config --global http.proxy 127.0.0.1:7890 git config --gl…

2025年6月11日 669点热度 xxs9331 阅读全文

本章只讲述所有基本的 I/O 函数,更多函数请参考Python标准文档。 打印到屏幕 最简单的输出方法是用print语句,你可以给它传递零个或多个用逗号隔开的表达式。此函数把你传递的表达式转换成一个字符串表达式,并将结果写到标准输出如下: #!/usr/bin/python # -*- coding: UTF-8 -*- print "Python 是一个非常棒的语言,不是吗?" 你的标准屏幕上会产生以下结果: Python 是一个非常棒的语言,不是吗? 读取键盘输入 Python提供了两个内置…

2025年4月24日 703点热度 xxs9331 阅读全文

字典是另一种可变容器模型,且可存储任意类型对象。 字典的每个键值 key:value 对用冒号 : 分割,每个键值对之间用逗号 , 分割,整个字典包括在花括号 {} 中 ,格式如下所示: d = {key1 : value1, key2 : value2 } 注意:dict 作为 Python 的关键字和内置函数,变量名不建议命名为 dict。 键一般是唯一的,如果重复最后的一个键值对会替换前面的,值不需要唯一。 >>> tinydict = {'a': 1, 'b': 2, 'b': '3'} …

2025年4月23日 523点热度 xxs9331 阅读全文

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。 compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。 re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。 本章节主要介绍Python中常用的正则表达式处理函数。 re.m…

2025年4月22日 598点热度 xxs9331 阅读全文

字符串是 Python 中最常用的数据类型。我们可以使用引号 ( ' 或 " ) 来创建字符串。 创建字符串很简单,只要为变量分配一个值即可。例如: var1 = 'Hello World!' var2 = "Python Runoob" Python 访问字符串中的值 Python 不支持单字符类型,单字符在 Python 中也是作为一个字符串使用。 Python 访问子字符串,可以使用方括号来截取字符串,如下实例: #!/usr/bin/python var1 = 'Hello World!' var2 = "…

2025年4月19日 464点热度 xxs9331 阅读全文

序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。 Python有6个序列的内置类型,但最常见的是列表和元组。 序列都可以进行的操作包括索引,切片,加,乘,检查成员。 此外,Python已经内置确定序列的长度以及确定最大和最小的元素的方法。 列表是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。 列表的数据项不需要具有相同的类型 创建一个列表,只要把逗号分隔的不同的数据项使用方括号括起来即可。如下所示: lis…

2025年4月19日 582点热度 xxs9331 阅读全文

系统之美 - 常见的系统陷阱与对策 - 德内拉·梅多斯 - 微信读书 政策阻力(Policy Resistance) 陷阱:当系统中多个参与者有不同的目标,从而将系统存量往不同方向拉时,结果就是政策阻力。任何新政策,尤其是当它恰好管用时,都会让存量远离其他参与者的目标,因而会产生额外的抵抗,其结果是大家都不愿意看到的,但每个人都要付出相当的努力去维持它。 对策:放弃压制或实现单方面的目标。化阻力为动力,将所有参与者召集起来,用先前用于维持政策刚性的精力,去寻找如何实现所有人的目标,实现“皆大欢喜”,或者重新定义一个…

2025年3月17日 419点热度 xxs9331 阅读全文

基本介绍 此应用是基于 Sing-box 的多平台客户端,可用作通用代理工具链。此应用提供广泛的功能。它还支持大量协议。此应用免费使用、无广告且开源。它提供了一种安全且私密的工具来访问免费互联网。 支持多种协议,如: ECH、Sing-box、V2ray、Xray、Vless、Vmess、Trojan、Reality、gRPC、WebSocket、Quic、TUIC、Hysteria、Hysteria2、Shadowtls、SSH、Clash、Clash meta 支持不同的订阅链接,如: Clash、Sing-b…

2025年3月4日 510点热度 xxs9331 阅读全文
12