“残差扩散”拯救短临降水预测？DiffCast论文阅读

Tue, 24 Feb 2026 20:32:24 +0800

ℹ️ 写在前面

本文尚未完成，但近期不会补充完整。

这里记录一下还需要写的部分：

论文方法部分尚未完成
实验结果与分析
复现（如果可以的话，项目组里有学长指出研究附带的Github仓库中，代码并不完整，复现可能有困难）

在刚接触气象领域研究时，学长推荐我阅读《DiffCast: A Unified Framework via Residual Diffusion for Precipitation Nowcasting》这篇论文，说可以参考学习扩散模型如何应用在气象领域，解决短临降水问题。

学长自己的研究中，曾经将 DiffCast 作为Baseline之一（据他自己说，效果不够好hh）。我们现在手上的工作也是扩散模型相关，因此阅读这篇论文还是很有必要的。

Transformer + 扩散模型：DiT 入门

Fri, 06 Feb 2026 20:09:38 +0800

ℹ️ 写在前面

本文尚未完成，但近期不会补充完整。

这里记录一下还需要写的部分：

diffusion.py 的代码解析
DiT 模型小实验的整体运行效果
参考文献也需要补充

本文内容基于论文 Scalable Diffusion Models with Transformers。

但文章内容并不是论文阅读笔记，而是对 DiT 的入门介绍。未来有机会可以写一个详细的阅读笔记。

扩散模型介绍

扩散模型（Denoising Diffusion Probabilistic Models，DDPMs）在图像/音频/视频生成方面取得了显著的成果。

本文中，采用离散时间（潜变量模型）（discrete-time (lantent variable model)）的视角，事实上有多种关于扩散模型的观点，可以都去了解一下。

随机微分方程（SDE）、得分匹配（Score Matching）、朗之万动力学（Langevin Dynamics）、变分推断视角（Variational Inference）……

我们常说的机器学习，或者更准确一些，监督学习中，我们做的是“判别”：

输入：一张猫的图片
输出：标签”cat“
本质：学习 p(y|x) （给定图片，预测类别）

而扩散模型做的是”生成“，可以理解为与监督学习相反的问题：

输入：随机噪声
输出：一张猫的图片
本质：学习 p(x) （数据本身的分布）

下面，让我们详细看看扩散模型是如何完成它的工作的：

前向过程：数据 → 噪声

我们定义一个固定的、不需要学习的前向过程（Forward Process），把真实图像 $x_0$ 逐步变成纯噪声 $x_T$ 。

为什么要做这个？

我们在前向过程中人为构造一条从数据到噪声的渐进式退化路径。

扩散模型可以理解为一个去噪网络，它的工作流程就是对着一张图片（初始是随机噪声），一步一步去掉噪声，最后得到我们要生成的目标图片。

那么，我们现在手上有原始图片，我们希望模型学会如何去噪，需要从这一张图片构造出足够多的训练数据供扩散模型学习。

我们把原始图片一步步加噪，得到一系列图片（每个图片即对应一个时间步 $t$ ），每个图片都比前一张有更多噪声，直到最后成为纯噪声。

然后我们把这一系列图片反过来看，就是一个从纯噪声一步步变成目标图片的过程，这就是扩散模型需要的训练数据。它会从这一系列数据中学会去噪的技巧，最后能够按需求生成图片。

总而言之，这就是前向过程可以理解为训练数据的构造方式。

这个数据到噪声的过程是一步步进行的。我们看到其中一步：

单步转移

从第 $t-1$ 步到第 $t$ 步，我们做的就是依赖当前状态，加一点点高斯噪声：

DDPM on ClarkFlyBee's Blog

“残差扩散”拯救短临降水预测？DiffCast论文阅读

相关知识铺垫

短临降水问题定义

扩散模型

Transformer + 扩散模型：DiT 入门

扩散模型介绍

前向过程：数据 → 噪声

为什么要做这个？

单步转移