AI基础

AI 是怎么凭空画出图片的?扩散模型原理

你输入几个字,AI 秒出一张精美图片——这背后到底发生了什么?本文用有趣的比喻,带你理解 Stable Diffusion 和 Midjourney 背后的扩散模型原理。

发布于 2025/1/25

你在 Midjourney 里输入”赛博朋克风格的上海夜景,霓虹灯倒映在雨水中,电影感构图”,几秒钟后,一张令人叹为观止的图片出现在屏幕上。

这不是魔法。但它的原理,比魔法还有意思。

从”雪花屏”到精美图片

AI 图像生成的核心技术叫扩散模型(Diffusion Model)。理解它,先从一个逆向过程开始。

想象你面前有一张画。现在,有人开始往这张画上撒噪点——一粒、两粒、越来越多——直到整张画变成一片杂乱的”雪花屏”。这张画的信息,就在这层层叠加的噪点中,逐渐消失了。

扩散模型训练的,正是逆向这个过程的能力:从一片杂乱的噪声出发,一步一步”擦除”噪点,最终还原出一张清晰的图片。

用生成来说:AI 先生成一张纯噪声图,然后反复执行”去噪”步骤,每一步都让图像变得稍微清晰一点,大约经过20到50步之后,一张完整的图片就出现了。

雕塑家的逆向工作

这个过程有一个很美的类比:逆向雕塑

普通雕塑家从一块大理石出发,凿去多余部分,直到雕像显现。扩散模型则是反过来的——它从一片混沌的噪声出发,每一步都在”雕刻”,让图像从模糊走向清晰,从混乱走向秩序。

每一步去噪,AI 都在回答一个问题:“在这团噪声里,最有可能隐藏着什么形状?” 然后它轻轻推动图像朝那个方向走一小步。

训练:看了几亿张图的”眼睛”

扩散模型是怎么学会”看懂”图像的?

训练时,模型看了海量的(图片,文字描述)配对数据——比如一张猫的照片配上”一只橘色的猫坐在窗台上”。模型学习的目标是:理解文字和图像之间的关系

这里有一个关键组件叫 CLIP(Contrastive Language-Image Pretraining),它的工作是把文字和图像映射到同一个”意义空间”里。在这个空间里,“猫”这个词和猫的图片挨得很近,“海浪”和海浪的图片挨得很近。

所以当你输入”赛博朋克上海”,CLIP 把这段文字转换成一个”意义向量”,扩散模型就以这个向量为导航,在去噪过程中朝着”赛博朋克上海”的视觉方向行进。

为什么同一个提示词每次出图不一样?

很多人注意到,用同样的提示词生成两次,得到的图片完全不同。这是因为起始噪声是随机的

去噪过程的起点——那张纯噪声图——每次都是随机生成的。从不同的噪声出发,即使沿着同样的”方向”去噪,最终走到的地方也不同。就像从随机的地方出发,沿着同一个方向走,终点也会各不相同。

这也是为什么 AI 图像生成有”种子(seed)“这个概念——固定随机种子,就等于固定了起始噪声,每次都能复现同一张图。

让图片更好的实用技巧

为什么详细的提示词效果更好?

越详细的提示词,给扩散模型的导航越精确。“一只狗”和”一只金毛寻回犬,阳光下奔跑在海边,动感模糊,摄影感,暖色调”——后者给了模型太多更具体的”目标方向”。

什么是负向提示词(Negative Prompt)?

你不仅可以告诉 AI “要什么”,还可以告诉它”不要什么”。常见的负向提示词包括:blurry, ugly, extra fingers, watermark, low quality。这相当于在去噪导航中加了”避开这些方向”的指令,能有效减少畸形手指、模糊画面等常见问题。

为什么有时候 AI 画的手指是畸形的?

训练数据里,手的图片相对稀少且复杂,模型没有学得特别好。近年来这个问题已大幅改善,但还没完全解决。

主流模型对比

模型特点适合谁
Midjourney审美极强,画面精美,风格统一设计师、创意工作者
DALL-E 3指令遵循好,画面中的文字清晰需要精确控制内容的用户
Stable Diffusion开源,可本地运行,高度可定制开发者、想深度定制的用户
Flux新兴开源模型,质量极高追求画质的进阶用户

AI 图像生成技术还在飞速发展。从2022年第一代 Stable Diffusion 发布,到今天的模型,画质提升已经是翻天覆地。理解背后的原理,你就知道为什么”好提示词”不是玄学——它是在跟一个复杂的导航系统对话。