AI 是怎么凭空画出图片的？扩散模型原理

你在 Midjourney 里输入”赛博朋克风格的上海夜景，霓虹灯倒映在雨水中，电影感构图”，几秒钟后，一张令人叹为观止的图片出现在屏幕上。

这不是魔法。但它的原理，比魔法还有意思。

从”雪花屏”到精美图片

AI 图像生成的核心技术叫扩散模型（Diffusion Model）。理解它，先从一个逆向过程开始。

想象你面前有一张画。现在，有人开始往这张画上撒噪点——一粒、两粒、越来越多——直到整张画变成一片杂乱的”雪花屏”。这张画的信息，就在这层层叠加的噪点中，逐渐消失了。

扩散模型训练的，正是逆向这个过程的能力：从一片杂乱的噪声出发，一步一步”擦除”噪点，最终还原出一张清晰的图片。

用生成来说：AI 先生成一张纯噪声图，然后反复执行”去噪”步骤，每一步都让图像变得稍微清晰一点，大约经过20到50步之后，一张完整的图片就出现了。

这个过程有一个很美的类比：逆向雕塑。

普通雕塑家从一块大理石出发，凿去多余部分，直到雕像显现。扩散模型则是反过来的——它从一片混沌的噪声出发，每一步都在”雕刻”，让图像从模糊走向清晰，从混乱走向秩序。

每一步去噪，AI 都在回答一个问题：“在这团噪声里，最有可能隐藏着什么形状？” 然后它轻轻推动图像朝那个方向走一小步。

扩散模型是怎么学会”看懂”图像的？

训练时，模型看了海量的（图片，文字描述）配对数据——比如一张猫的照片配上”一只橘色的猫坐在窗台上”。模型学习的目标是：理解文字和图像之间的关系。

这里有一个关键组件叫 CLIP（Contrastive Language-Image Pretraining），它的工作是把文字和图像映射到同一个”意义空间”里。在这个空间里，“猫”这个词和猫的图片挨得很近，“海浪”和海浪的图片挨得很近。

所以当你输入”赛博朋克上海”，CLIP 把这段文字转换成一个”意义向量”，扩散模型就以这个向量为导航，在去噪过程中朝着”赛博朋克上海”的视觉方向行进。

很多人注意到，用同样的提示词生成两次，得到的图片完全不同。这是因为起始噪声是随机的。

去噪过程的起点——那张纯噪声图——每次都是随机生成的。从不同的噪声出发，即使沿着同样的”方向”去噪，最终走到的地方也不同。就像从随机的地方出发，沿着同一个方向走，终点也会各不相同。

这也是为什么 AI 图像生成有”种子（seed）“这个概念——固定随机种子，就等于固定了起始噪声，每次都能复现同一张图。

为什么详细的提示词效果更好？

越详细的提示词，给扩散模型的导航越精确。“一只狗”和”一只金毛寻回犬，阳光下奔跑在海边，动感模糊，摄影感，暖色调”——后者给了模型太多更具体的”目标方向”。

什么是负向提示词（Negative Prompt）？

你不仅可以告诉 AI “要什么”，还可以告诉它”不要什么”。常见的负向提示词包括：blurry, ugly, extra fingers, watermark, low quality。这相当于在去噪导航中加了”避开这些方向”的指令，能有效减少畸形手指、模糊画面等常见问题。

为什么有时候 AI 画的手指是畸形的？

训练数据里，手的图片相对稀少且复杂，模型没有学得特别好。近年来这个问题已大幅改善，但还没完全解决。

AI 图像生成技术还在飞速发展。从2022年第一代 Stable Diffusion 发布，到今天的模型，画质提升已经是翻天覆地。理解背后的原理，你就知道为什么”好提示词”不是玄学——它是在跟一个复杂的导航系统对话。