几篇文章的takeaway

发表于2026-04-28|更新于2026-04-28|技术AICVGenerative Model

|浏览量:

SR3

SR3将DDPM应用于图像超分辨率任务，取得了很好的效果。具体来说，SR3现将低分辨率图像通过简单的插值方法（如bicubic）放大到目标分辨率，然后在DDPM的每一步，将这个插值后的低分辨率图像concat到带噪声图像xt的通道维度上，交由网络处理。
SR3在每一步t没有使用DDPM原始的$\bar\alpha_t$，而是从$\bar\alpha\sim p(\bar\alpha)=U(\bar\alpha_{t-1},\bar\alpha_t)$中随机取值。
SR3模型的每一步直接接受$\bar\alpha$作为输入而不是时间步t，增加了推理的灵活性，步数和噪声强度更可控。

Palette

过去，我们为不同的任务设计不同的模型架构，采取不同的loss函数，如GAN，Diffusion，VAE等。Palette证明，图像翻译和复原任务（如上色、修复、超分）可以被条件扩散模型统一处理，这样，框架和loss都得到了统一。Palette在SR3的结构上，并没有对不同任务做特别的调参、定制网络架构或任何辅助的损失，事实上，它也没对扩散模型做什么特别的改变，仅仅是把不同任务的退化后的图像当作条件给到模型而已。在colorization, inpainting, uncropping (outpainting) 和 JPEG restoration四大任务中，Palette都取得了SOTA的结果。
对于inpainting（修补）,palette用标准高斯噪声填充mask区域而不是直接把mask传给模型；对于uncropping（扩展）,palette用标准高斯噪声填充扩展区域而不是直接把扩展区域传给模型。
palette发现U-Net 架构里面的 (global) self-attention 真的有用，全局自注意力效果最好。
对于扩散模型每一步的loss，实验发现二者的采样质量差不多，但是 L2 loss 能给出更多样的结果。推测是 L1 loss 倾向于让模型丢掉更多的模式。

文章作者: Qz

文章链接: https://www.cosmosh.ink/2026/04/28/%E5%87%A0%E7%AF%87%E6%96%87%E7%AB%A0%E7%9A%84takeaway/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Qz's Blog！

Generative Model CV IR SR

相关推荐

参考：https://zhuanlan.zhihu.com/p/614147698 https://zhuanlan.zhihu.com/p/565698027 ...

DDPM的核心思想

本文旨在用最简短的篇幅，描述DDPM的核心思想与设计动机，仅作为日后回顾DDPM的一个记忆锚点，具体公式和代码请参考其它资料。本文尽可能省略一切数学推导，跳略的推导会标注出来。参考：https://zhuanlan.zhihu.com/p/650394311 https://lilianweng.github.io/posts/2021-07-11-diffusion-models/ 生成模型的目标，就是从一张随机图像（如纯噪声）开始，生成一张“真实”的图像，这里的“真实”是指生成的图像符合实际图像的概率分布（例如，一个人拥有黄色或白色皮肤的概率是比较大的，但是拥有蓝色皮肤却是几乎不可能的）。尽管现在大多数生成模型都支持根据输入的文字生成对应内容的图片，但那也只是通过在模型的每个模块加上文字的特征表示而训练得到的，对模型的整体结构影响不大，因此本文主要介绍DDPM从噪声生图的核心思想。 DDPM（以及所有生成式模型）的优化目标是让模型产生的图片分布和真实图片分布尽量相似，那么就有了以下推导过程：为了使模型产生的图片分布和真实图片分布尽可能相似，我们要求...

Diffusion Transformer

原论文：https://arxiv.org/abs/2212.09748 参考：建议先看https://zhuanlan.zhihu.com/p/683657190 再看https://zhuanlan.zhihu.com/p/684125968，会对DiT有一个相当透彻的理解以下为Gemini概括的我在学习DiT过程中的对话内容,内容覆盖较为片面，仅供参考： 1. 核心架构：从 DDPM 到 DiTDiT 并不是脱离传统扩散模型的全新物种，而是对现有框架的“换擎升级”。骨干网络替换：DiT 将传统 DDPM（去噪扩散概率模型）中基于 CNN 的 U-Net 替换成了 Vision Transformer (ViT)。潜在扩散模型 (LDM)：DiT 并不直接在原始像素空间生成图像，而是运行在由 VAE（变分自编码器）压缩后的潜在空间 (Latent Space) 中。 VAE 的双重角色：训练阶段（不可或缺）：使用基于 CNN 的 VAE 编码器，将高分辨率图像压缩为低维潜在表示（建立潜在空间的数学分布），大幅降低 Transformer...

Flow matching 与 Rectified flow

参考：FM:先看文章一再看文章二 Rectified flow:原作者的博文另一篇对Rectified flow的解读，个人认为视角非常高，暂时没完全理解论文：Flow Matching for Generative Modeling Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow Occam’s razor:Entities must not be multiplied beyond necessity 前言我们知道，图像生成模型的根本目的在于找到一个从先验分布到数据分布到映射。在现实世界中，我们只有真实数据和纯噪声，而看不到从噪声到数据的中间过渡过程，那么，我们的模型就需要建模这个过程，使得在这样的过程假设下（注意，这里说的是“假设”，因为根本不存在一个“客观正确”的转换过程），模型能够产生一个与数据分布尽可能接近的分布。Flow...

Just image Transformer

原论文：https://www.alphaxiv.org/abs/2511.13720参考：https://zhuanlan.zhihu.com/p/1977479109690032906 https://zhuanlan.zhihu.com/p/1974626511182124468 1.扩散模型的发展历史在生成式模型领域，如GAN相比，扩散模型（如DDPM）一直被诟病的一个问题就是它的计算效率较低，因为像DDPM这样的模型的增噪，采样，去噪过程全部都是在原始图像的像素空间（pixel space）中进行的，除非图片的分辨率非常小（如16x16x3），否则该pixel space的维度是非常高的，导致模型的计算量和内存占用都非常大。ADM对DDPM进行了改进，但与GAN相比，效率依然差得很远。为了提升模型效率，Latent Diffusion Model（LDM）架构被提出，该架构包含一个VAE编码器，用于将图片从pixel space映射到一个低维的latent space中；一个针对latent...

Score-based models

参考:https://yang-song.net/blog/2021/score/ https://yang-song.net/blog/2019/ssm/原论文:https://arxiv.org/pdf/1907.05600 https://arxiv.org/pdf/2011.13456 … 前言首先，无论是学习还是回顾，都非常建议先阅读这篇博文，作者为Yang Song，是score系列模型及其相关工作的核心人物。该文章从传统的likelihood-based models和implicit generative models讲起，通过它们的不足引出score functions,score-based models,score matching,Langevin dynamics sampling,annealed Langevin sampling,SDE,Probability flow...

数据加载中