扩散模型(Diffusion Model)是一种基于概率论的生成式人工智能算法,其核心思想是通过一个渐进式的“加噪”与“去噪”过程来学习数据分布,从而生成全新的、高质量的数据样本。
扩散模型的工作机制可以类比为“复原一幅被逐渐泼洒墨点的画作”。整个过程分为两个阶段:前向扩散与反向生成。

在前向扩散过程中,模型对一张清晰的原始图像(或任何数据)逐步添加微小的随机噪声。经过数百甚至数千步后,图像最终会变成一幅完全随机的、如同电视雪花屏的纯噪声图。这个过程是确定的,旨在破坏数据原有的结构。

关键的反向生成过程则是模型的“学习”与“创造”阶段。模型(通常是一个U-Net结构的神经网络)被训练来学习如何从纯噪声中,一步步地、有策略地“去除”噪声,最终还原出一张符合原始数据分布的新图像。它并非记忆并还原某张具体图片,而是学会了“一幅合理的图片应该是什么样子”的通用概念,因此能够从随机噪声中创造出前所未见的新内容。

理解扩散模型,可关联以下概念:
生成对抗网络(GAN)、
变分自编码器(VAE)、
稳定扩散(Stable Diffusion)、
去噪、
潜空间、
提示词工程。

若想深入了解,建议从2020年的奠基性论文《Denoising Diffusion Probabilistic Models》入手。同时,可以关注开源项目Stable Diffusion的官方文档与社区教程,通过实践理解其潜空间、采样器、引导尺度等关键参数如何影响生成结果。对于数学原理,需要具备概率论和随机过程的基础知识。
