李宏毅扩散模型（六） - 世界树

对于推理步骤，每进行一次推理需要添加一个高斯变量。

对于文字生成模型来讲，如果每一次输出的都是可能性最大，那么生成结果只会输出那些使用频率最高的一些词汇，忽略了文字本身的含义。

一些其他的论文主张在词汇嵌入之后添加高斯噪声。

或者通过掩码预测的方式，来实现逐步预测的效果。

本作品采用知识共享署名 4.0 国际许可协议进行许可

文章评论