概念讲解 【李宏毅】2024年公认最好的扩散模型【Diffusion Model】教程!从入门到进阶,一套全解决!-附带课件_哔哩哔哩_bilibili 反向过程(Reverse Process) 一步一步从噪声中恢复出原图像 去噪模型(Denoise Modle) 同一个Denoise Modle,输出还有step,代表现在噪声严重程度。 根据step产生噪声,从噪声图像中去除噪声,得到清晰图像。 前向过程(Forward Process) 文生图 数据集,包括文字和图像

2025年2月22日 116点热度 xxs9331 阅读全文

MySQL和Redis是两种不同类型的数据库管理系统,它们在数据存储、数据处理和使用方式等方面有很大的区别。以下是它们之间的主要区别: 数据库类型: MySQL是一种关系型数据库管理系统(RDBMS),它以表格的形式存储数据,并使用结构化查询语言(SQL)进行数据操作。 Redis是一种键值存储系统,它以键值对的形式存储数据,并提供丰富的数据结构(如字符串、列表、哈希表、集合等)进行数据操作。 数据模型: MySQL使用传统的表格模型,数据以行和列的形式组织,支持复杂的关系和约束。 Redis使用键值对模型,每个键…

2025年2月19日 108点热度 xxs9331 阅读全文

余弦相似度 余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为0到1之间。 层归一化(Layer Normalization) 作用:对单个样本的所有特征进行标准化,加速训练。 步骤: 计算均值与方差: $$ …

2025年2月16日 98点热度 xxs9331 阅读全文

文字转数字 加入位置信息编码 QKV分成三份 数字缩放 神经网络层 数字缩放 全部数字列队 概率转化 文字转数字 最初字符使用的是独热编码,现在大部分使用现成的第三方库。 对于字符的复用问题,每个字符可以对应多个数字。 对于一句话中的每个字符,从字典里抽出对应的行组成矩阵。完成字符转向量第一步。 位置信息编码 使用正余弦映射位置信息,与字符向量相加。完成字符转向量。

2025年2月10日 102点热度 xxs9331 阅读全文

Transformer Architecture 多头自注意力机制->层归一化->线性层

2025年2月8日 84点热度 xxs9331 阅读全文

How LLM Works 文档补充(document completer) 生成式模型(generator model) fune-tuning 使用QA进行模型微调 RLHF 基于人类反馈的强化学习 promp engineer 指令工程

2025年2月7日 91点热度 xxs9331 阅读全文

大语言模型 模型定义 大型语言模型 (LLM) 是一种因其能够实现通用语言理解和生成而显著的语言模型。LLM通过在计算密集型的自监督和半监督训练过程中学习文本文档的统计关系来获得这些能力。LLM是遵循变换器架构的人工神经网络。 模型文件 moe结构 模型规模是提升模型性能的关键因素之一。在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,往往比用更多的步数训练一个较小的模型效果更佳。 混合专家模型 (MoE) 的一个显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算…

2025年2月3日 96点热度 xxs9331 阅读全文
12