对于推理步骤,每进行一次推理需要添加一个高斯变量。
对于文字生成模型来讲,如果每一次输出的都是可能性最大,那么生成结果只会输出那些使用频率最高的一些词汇,忽略了文字本身的含义。
一些其他的论文主张在词汇嵌入之后添加高斯噪声。
或者通过掩码预测的方式,来实现逐步预测的效果。
对于推理步骤,每进行一次推理需要添加一个高斯变量。
对于文字生成模型来讲,如果每一次输出的都是可能性最大,那么生成结果只会输出那些使用频率最高的一些词汇,忽略了文字本身的含义。
一些其他的论文主张在词汇嵌入之后添加高斯噪声。
或者通过掩码预测的方式,来实现逐步预测的效果。
文章评论