Stable Diffusion 3正式开源，开启图像生成新生代！

6月3日晚，在AMD的产品发布会上，Stability AI的联合首席执行官Christian Laforte宣布了一个重要消息：备受瞩目的文生图模型Stable Diffusion 3将于6月12日在Hugging Face平台开源其权重。

此次开源的Stable Diffusion 3 Medium模型拥有20亿参数，经过大幅优化，在照片真实感、样式多样性、图片质量以及算力资源消耗方面均超越了前两代模型。此外，Stable Diffusion 3被业界广泛认为是对标闭源文生图产品Midjourney和DALL·E 3的最佳模型之一，已得到全球数百万开发者的青睐，并影响了众多文生视频和3D模型的构建。

早在今年2月22日，Stability AI就首次展示了Stable Diffusion 3的预览版，其出色的图片质量、优化的文本语义理解与文字嵌入功能，赢得了全球开发者的高度期待。然而，在3月23日，公司经历了首席执行官Emad Mostaque的离职以及财务危机的风波，一度让外界对Stable Diffusion 3的开源前景产生担忧。

幸运的是，Stability AI成功度过了这些挑战。此次，新上任的联合首席执行官在AMD的产品发布会上宣布了开源计划，这不仅表明Stability AI已经克服了之前的困难，还可能意味着得到了AMD的赞助或潜在的全资收购机会。

与英伟达相比，AMD在大型模型、生成式AI的部署和开发方面稍显滞后。然而，Stability AI开源的大语言模型、扩散模型等已累计超过千万级别的下载量，这意味着AMD若能成功合作或收购Stability AI，将吸引一大批开发者加入其生态。

关于Stable Diffusion 3的架构，它采用了与Sora相同的Diffusion Transformer架构。Diffusion模型通过数据到噪声的逆过程来生成新的数据点，广泛应用于图像和视频生成领域。为了满足日益增长的算力需求，Stable Diffusion 3融合了Transformer架构，实现图像和文本模态的独立处理，并促进两者之间的双向信息流。

Diffusion Transformer架构引入了创新的噪声采样技术和训练Rectified Flow模型的方法。它通过感知上相关的尺度提高训练效率和性能，采用模拟无关的流训练方法直接回归一个向量场，从而有效避免了求解常微分方程带来的高算力成本，同时大幅增强了文本语义理解、文字嵌入和图片样式等方面的能力。

Stable Diffusion 3的生成能力已在其预览版中得到了充分展示。从教室中庆祝的鳄梨学生，到半透明的双层猪、穿着皮夹克的青蛙以及翱翔在山脉之上的白色巨龙，这些图片都展现了Stable Diffusion 3的创造力和想象力。

目前，Stable Diffusion 3 Medium模型仅限于学术研究使用，无法直接商业化。但对于希望在正式开源后进行商业应用的开发者，可以联系Stability AI以获取更多信息。