“残差扩散”拯救短临降水预测?DiffCast论文阅读

ℹ️ 写在前面 本文尚未完成,但近期不会补充完整。 这里记录一下还需要写的部分: 论文方法部分尚未完成 实验结果与分析 复现(如果可以的话,项目组里有学长指出研究附带的Github仓库中,代码并不完整,复现可能有困难) 在刚接触气象领域研究时,学长推荐我阅读《DiffCast: A Unified Framework via Residual Diffusion for Precipitation Nowcasting》这篇论文,说可以参考学习扩散模型如何应用在气象领域,解决短临降水问题。 学长自己的研究中,曾经将 DiffCast 作为Baseline之一(据他自己说,效果不够好hh)。我们现在手上的工作也是扩散模型相关,因此阅读这篇论文还是很有必要的。 相关知识铺垫 短临降水问题定义 我们来看看文章如何定义短临降水问题: 短临降水问题可以表述为一个时空预测问题(Spatio-temporal prediction problem),基于当前的观测数据,预测未来很短时间范围内(0~6h)的高时空分辨率降雨情况 输入:$L_{in}$ 帧初始雷达回波图像序列 $x=[x_i]^0_{i=-L_{in}} \in \mathbb{R}^{L_{in} \times H \times W \times C}$ 输出:未来 $L_{out}$ 帧序列 $y=[y_i]^{L_{out}}_{i=1} \in \mathbb{R}^{L_{out} \times H \times W \times C}$ 数学本质:建模条件概率分布 $p(y|x)$ 翻译一下,这个公式表示 ”在已知 $x$ 的条件下,$y$ 发生的概率分布“。 我们预测的不是唯一的结果,而是要所有未来情况的发生概率。 短临降水问题不仅仅是“预测下一帧图像”,而是一个需要同时解耦并建模“全局确定性运动”与“局部随机残差”的复杂时空演化问题。 扩散模型 扩散模型(DDPM)主要包含两个过程: 前向扩散(Forward Diffusion) 给定一个清晰图像 $x_0$,在 $T$ 步内逐步加入高斯噪声,得到 $x_1,x_2,\dots,x_T$ 。到了 $x_T$ ,图像就变成了纯高斯噪声。 逆向去噪(Reverse Denoising) ...

February 24, 2026 · ClarkFlyBee

Transformer + 扩散模型:DiT 入门

ℹ️ 写在前面 本文尚未完成,但近期不会补充完整。 这里记录一下还需要写的部分: diffusion.py 的代码解析 DiT 模型小实验的整体运行效果 参考文献也需要补充 本文内容基于论文 Scalable Diffusion Models with Transformers。 但文章内容并不是论文阅读笔记,而是对 DiT 的入门介绍。未来有机会可以写一个详细的阅读笔记。 扩散模型介绍 扩散模型(Denoising Diffusion Probabilistic Models,DDPMs)在图像/音频/视频生成方面取得了显著的成果。 本文中,采用离散时间(潜变量模型)(discrete-time (lantent variable model))的视角,事实上有多种关于扩散模型的观点,可以都去了解一下。 随机微分方程(SDE)、得分匹配(Score Matching)、朗之万动力学(Langevin Dynamics)、变分推断视角(Variational Inference)…… 我们常说的机器学习,或者更准确一些,监督学习中,我们做的是“判别”: 输入:一张猫的图片 输出:标签”cat“ 本质:学习 p(y|x) (给定图片,预测类别) 而扩散模型做的是”生成“,可以理解为与监督学习相反的问题: 输入:随机噪声 输出:一张猫的图片 本质:学习 p(x) (数据本身的分布) 下面,让我们详细看看扩散模型是如何完成它的工作的: 前向过程:数据 → 噪声 我们定义一个固定的、不需要学习的前向过程(Forward Process),把真实图像 $x_0$ 逐步变成纯噪声 $x_T$ 。 为什么要做这个? 我们在 前向过程 中人为构造一条从数据到噪声的渐进式退化路径。 扩散模型可以理解为一个去噪网络,它的工作流程就是对着一张图片(初始是随机噪声),一步一步去掉噪声,最后得到我们要生成的目标图片。 那么,我们现在手上有原始图片,我们希望模型学会如何去噪,需要从这一张图片构造出足够多的训练数据供扩散模型学习。 我们把原始图片一步步加噪,得到一系列图片(每个图片即对应一个时间步 $t$ ),每个图片都比前一张有更多噪声,直到最后成为纯噪声。 然后我们把这一系列图片反过来看,就是一个从纯噪声一步步变成目标图片的过程,这就是扩散模型需要的训练数据。它会从这一系列数据中学会去噪的技巧,最后能够按需求生成图片。 总而言之,这就是前向过程可以理解为训练数据的构造方式。 这个数据到噪声的过程是一步步进行的。我们看到其中一步: 单步转移 从第 $t-1$ 步到 第 $t$ 步,我们做的就是依赖当前状态,加一点点高斯噪声: ...

February 6, 2026 · ClarkFlyBee