Transformer Architecture 多头自注意力机制->层归一化->线性层

2025年2月8日 302点热度 xxs9331 阅读全文

How LLM Works 文档补充(document completer) 生成式模型(generator model) fune-tuning 使用QA进行模型微调 RLHF 基于人类反馈的强化学习 promp engineer 指令工程

2025年2月7日 317点热度 xxs9331 阅读全文

大语言模型 模型定义 大型语言模型 (LLM) 是一种因其能够实现通用语言理解和生成而显著的语言模型。LLM通过在计算密集型的自监督和半监督训练过程中学习文本文档的统计关系来获得这些能力。LLM是遵循变换器架构的人工神经网络。 模型文件 moe结构 模型规模是提升模型性能的关键因素之一。在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,往往比用更多的步数训练一个较小的模型效果更佳。 混合专家模型 (MoE) 的一个显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算…

2025年2月3日 297点热度 xxs9331 阅读全文

在 主题footer.php添加以下代码 <script> document.addEventListener("DOMContentLoaded", function() { document.querySelectorAll('pre code').forEach(code => { // 获取 code 中的内容并去掉最后一个换行符 let codeContent = code.textContent.trimEnd(); // 使用 trimEnd …

2024年12月5日 301点热度 xxs9331 阅读全文

环境部署 环境安装 jieba 是高效的中文分词工具,支持词性标注和关键词提取;neo4j 是用于与 Neo4j 图数据库交互的 Python 驱动,支持复杂图形数据查询;numpy 提供多维数组操作和数值计算功能,是数据处理的基础工具;torch 是 PyTorch 深度学习框架,支持动态计算图和 GPU 加速,用于深度学习模型的构建与训练;transformers = 4.46.3 是 Hugging Face 提供的 NLP 库,支持预训练模型的使用与微调。 pip install -r requiremen…

2024年12月5日 400点热度 xxs9331 阅读全文

<!-- wp:paragraph --> <p>This message is used to verify that this feed (feedId:87394298904045568) belongs to me (userId:86967715142127616). Join me in enjoying the next generation information browser https://follow.is.</p> <!-- /wp:paragra…

2024年12月5日 286点热度 xxs9331 阅读全文

# -*- coding:UTF-8 -*- # author: # contact: # datetime: # software: PyCharm """ 文件说明: 打印工程目录文件,参考链接: https://blog.csdn.net/albertsh/article/details/77886876 """ import os import os.path def dfs_showdir(path, depth): if depth == 0: print("root:[" + path + "]") …

2024年4月11日 265点热度 xxs9527 阅读全文

map 简介 map 是 STL(中文标准模板库)的一个关联容器。 可以将任何基本类型映射到任何基本类型。如 int array [100] 事实上就是定义了一个 int 型到 int 型的映射。 map 提供一对一的数据处理,key-value 键值对,其类型可以自己定义,第一个称为关键字,第二个为关键字的值 map 内部是自动排序的。 map 的用法 引入包 #include <map> map 的定义 map<type1name,type2name> maps;//第一个是键的类型,第…

2024年3月24日 392点热度 xxs9527 阅读全文

01 背包是一种动态规划问题。动态规划的核心就是状态转移方程,本文主要解释 01 背包状态转移方程的原理。 问题描述 01 背包问题可描述为如下问题: 有一个容量为 V 的背包,还有 n 个物体。现在忽略物体实际几何形状,我们认为只要背包的剩余容量大于等于物体体积,那就可以装进背包里。每个物体都有两个属性,即体积 w 和价值 v。 问:如何向背包装物体才能使背包中物体的总价值最大? 原始的 01 背包 01 背包的状态转移方程为 C_{[i][j]} = \max(C_{[i - 1][j]}, C_{[i - 1…

2024年3月20日 381点热度 xxs9527 阅读全文

阿里云OSS和PicGo配置图床教程 超详细 废话不多说,直接开始 (一)购买阿里云OSS服务 1.登录阿里云 2.打开侧边栏,选择对象存储OSS 如下图: 3.对象存储界面右部选择创建Bucket 如下图所示: 之后会弹出一个配置的侧边栏,如下图所示: 因为一开始没有可用的"存储包",因此点击购买链接,如下图所示: 这里可以根据自己的实际情况来设定购买存储包的方案,如果在中国大陆,建议地域选择中国大陆通用 4.购买完成后,继续进行创建 Bucket工作 读写权限要设定为公共读,其他的服务选项,如果自己有特殊需要,…

2024年3月20日 409点热度 xxs9527 阅读全文
123456