几篇文章的takeaway
SR3
- SR3将DDPM应用于图像超分辨率任务,取得了很好的效果。具体来说,SR3现将低分辨率图像通过简单的插值方法(如bicubic)放大到目标分辨率,然后在DDPM的每一步,将这个插值后的低分辨率图像concat到带噪声图像xt的通道维度上,交由网络处理。
- SR3在每一步t没有使用DDPM原始的$\bar\alpha_t$,而是从$\bar\alpha\sim p(\bar\alpha)=U(\bar\alpha_{t-1},\bar\alpha_t)$中随机取值。
- SR3模型的每一步直接接受$\bar\alpha$作为输入而不是时间步t,增加了推理的灵活性,步数和噪声强度更可控。
Palette
- 过去,我们为不同的任务设计不同的模型架构,采取不同的loss函数,如GAN,Diffusion,VAE等。Palette证明,图像翻译和复原任务(如上色、修复、超分)可以被条件扩散模型统一处理,这样,框架和loss都得到了统一。Palette在SR3的结构上,并没有对不同任务做特别的调参、定制网络架构或任何辅助的损失,事实上,它也没对扩散模型做什么特别的改变,仅仅是把不同任务的退化后的图像当作条件给到模型而已。在colorization, inpainting, uncropping (outpainting) 和 JPEG restoration四大任务中,Palette都取得了SOTA的结果。
- 对于inpainting(修补),palette用标准高斯噪声填充mask区域而不是直接把mask传给模型;对于uncropping(扩展),palette用标准高斯噪声填充扩展区域而不是直接把扩展区域传给模型。
- palette发现U-Net 架构里面的 (global) self-attention 真的有用,全局自注意力效果最好。
- 对于扩散模型每一步的loss,实验发现二者的采样质量差不多,但是 L2 loss 能给出更多样的结果。推测是 L1 loss 倾向于让模型丢掉更多的模式。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Qz's Blog!