生成模型 基本思路是使用一个简单分布作为桥梁,将观测数据分布映射到简单分布中,再从简单分布映射观测数据分布。 使用高斯分布是因为高斯函数的运算性质很方便,也比较简单。多个高斯分布可以拟合一个复杂的分布。 扩散过程人为定义,反向生成过程引入参数$\theta$,根据最大似然估计方法,转化为求下界的上限。 DDPM 前向扩散过程 扩散模型的话通过超参数$\beta$将清晰图片和噪声图片加权求和,达到添加噪声的目的。 对于加权求和的结果,根据重参数采样,依然符合高斯分布。 对于超参数$\beta$,原始论文中设置为随着时…

2025年3月12日 163点热度 xxs9331 阅读全文

对于推理步骤,每进行一次推理需要添加一个高斯变量。 对于文字生成模型来讲,如果每一次输出的都是可能性最大,那么生成结果只会输出那些使用频率最高的一些词汇,忽略了文字本身的含义。 一些其他的论文主张在词汇嵌入之后添加高斯噪声。 或者通过掩码预测的方式,来实现逐步预测的效果。

2025年3月8日 119点热度 xxs9331 阅读全文

扩散过程 对于扩散过程中的连续两步,$x_{t}$由$x_{t-1}$和高斯噪声加权求和得到。 在每一步的扩散过程中,随机采样的高斯噪声想互独立。 将两个扩散步骤合并后,由于高斯函数的性质,高斯噪声经过加权求和后仍然是高斯噪声。 所以最终扩散过程 $$ x_t =(\sqrt{1-\beta_{1}}...\sqrt{1-\beta_{t}})x_0+\sqrt{1-(1-\beta_{1})\ldots(1-\beta_{t})} \ \epsilon ,\quad \epsilon \sim\mathcal{N…

2025年3月3日 114点热度 xxs9331 阅读全文

影像生成模型共同目标 在一个简单样本分布中任意向量样本,通过神经网络生成复杂样本分布。这种生成的分布和真实情况作比较。 对于文字生成图片的模型来说,输入不仅有简单样本分布的样本向量,文字也可以作为输入向量。 最大似然估计 最大似然估计(Maximum Likelihood Estimation,MLE)是一种统计学中常用的参数估计方法。这种方法的基本思想是:给定一个概率模型和一些观测数据,我们需要找到模型参数的最佳值,使得在这些参数下,观测数据出现的概率(也称为似然)最大。 假设从现实世界中采样出 $x^1\rig…

2025年3月1日 148点热度 xxs9331 阅读全文

基本概念 训练算法 推理算法

2025年2月28日 133点热度 xxs9331 阅读全文

Framework 文字转成向量 向量和噪声转成中间产物 中间产物转图像 Text Encoder FID CLIP Decoder Generation Model

2025年2月24日 143点热度 xxs9331 阅读全文

概念讲解 【李宏毅】2024年公认最好的扩散模型【Diffusion Model】教程!从入门到进阶,一套全解决!-附带课件_哔哩哔哩_bilibili 反向过程(Reverse Process) 一步一步从噪声中恢复出原图像 去噪模型(Denoise Modle) 同一个Denoise Modle,输出还有step,代表现在噪声严重程度。 根据step产生噪声,从噪声图像中去除噪声,得到清晰图像。 前向过程(Forward Process) 文生图 数据集,包括文字和图像

2025年2月22日 116点热度 xxs9331 阅读全文