定义 语言模型(LM) 语言模型(LM)的经典定义是一种对令牌序列(token)的概率分布。假设有一个令牌集的词汇表 V 。语言模型p为每个令牌序列 x_{1},...,x_{L} ∈ V 分配一个概率(介于0和1之间的数字): p(x_1,...x_L) 自回归语言模型(Autoregressive LM) 将序列 x_{1:L} 的联合分布 p(x_{1:L}) 的常见写法是使用概率的链式法则: p(x_{1:L}) = p(x_1) p(x_2 \mid x_1) p(x_3 \mid x_1, x_2) \…

2025年3月18日 470点热度 xxs9331 阅读全文

系统之美 - 常见的系统陷阱与对策 - 德内拉·梅多斯 - 微信读书 政策阻力(Policy Resistance) 陷阱:当系统中多个参与者有不同的目标,从而将系统存量往不同方向拉时,结果就是政策阻力。任何新政策,尤其是当它恰好管用时,都会让存量远离其他参与者的目标,因而会产生额外的抵抗,其结果是大家都不愿意看到的,但每个人都要付出相当的努力去维持它。 对策:放弃压制或实现单方面的目标。化阻力为动力,将所有参与者召集起来,用先前用于维持政策刚性的精力,去寻找如何实现所有人的目标,实现“皆大欢喜”,或者重新定义一个…

2025年3月17日 253点热度 xxs9331 阅读全文

生成模型 基本思路是使用一个简单分布作为桥梁,将观测数据分布映射到简单分布中,再从简单分布映射观测数据分布。 使用高斯分布是因为高斯函数的运算性质很方便,也比较简单。多个高斯分布可以拟合一个复杂的分布。 扩散过程人为定义,反向生成过程引入参数\theta,根据最大似然估计方法,转化为求下界的上限。 DDPM 前向扩散过程 扩散模型的话通过超参数\beta将清晰图片和噪声图片加权求和,达到添加噪声的目的。 对于加权求和的结果,根据重参数采样,依然符合高斯分布。 对于超参数\beta,原始论文中设置为随着时间步t线性增…

2025年3月12日 273点热度 xxs9331 阅读全文

对于推理步骤,每进行一次推理需要添加一个高斯变量。 对于文字生成模型来讲,如果每一次输出的都是可能性最大,那么生成结果只会输出那些使用频率最高的一些词汇,忽略了文字本身的含义。 一些其他的论文主张在词汇嵌入之后添加高斯噪声。 或者通过掩码预测的方式,来实现逐步预测的效果。

2025年3月8日 226点热度 xxs9331 阅读全文

基本介绍 此应用是基于 Sing-box 的多平台客户端,可用作通用代理工具链。此应用提供广泛的功能。它还支持大量协议。此应用免费使用、无广告且开源。它提供了一种安全且私密的工具来访问免费互联网。 支持多种协议,如: ECH、Sing-box、V2ray、Xray、Vless、Vmess、Trojan、Reality、gRPC、WebSocket、Quic、TUIC、Hysteria、Hysteria2、Shadowtls、SSH、Clash、Clash meta 支持不同的订阅链接,如: Clash、Sing-b…

2025年3月4日 327点热度 xxs9331 阅读全文

扩散过程 对于扩散过程中的连续两步,x_{t}由x_{t-1}和高斯噪声加权求和得到。 在每一步的扩散过程中,随机采样的高斯噪声想互独立。 将两个扩散步骤合并后,由于高斯函数的性质,高斯噪声经过加权求和后仍然是高斯噪声。 所以最终扩散过程 x_t =(\sqrt{1-\beta_{1}}...\sqrt{1-\beta_{t}})x_0+\sqrt{1-(1-\beta_{1})\ldots(1-\beta_{t})} \ \epsilon ,\quad \epsilon \sim\mathcal{N}(\math…

2025年3月3日 232点热度 xxs9331 阅读全文

影像生成模型共同目标 在一个简单样本分布中任意向量样本,通过神经网络生成复杂样本分布。这种生成的分布和真实情况作比较。 对于文字生成图片的模型来说,输入不仅有简单样本分布的样本向量,文字也可以作为输入向量。 最大似然估计 最大似然估计(Maximum Likelihood Estimation,MLE)是一种统计学中常用的参数估计方法。这种方法的基本思想是:给定一个概率模型和一些观测数据,我们需要找到模型参数的最佳值,使得在这些参数下,观测数据出现的概率(也称为似然)最大。 假设从现实世界中采样出 x^1\righ…

2025年3月1日 277点热度 xxs9331 阅读全文