Stable Diffusion一周年：这份扩散模型编年年出版值得拥有

制冷设备 2024-01-17 12:18:15

（亦被称为Guided Diffusion）。这篇发表文章明确提出了一项极其重要的方针，即通过基于分类器的引导来指导传播基本概念反转成影像。借助于其他多项加以改进，传播基本概念首次成功不敌了反转成教育领域的巨头“GAN”，同时也为OpenAI的DALLE-2（一个影像和自然语言反转成基本概念）的发布新的闻奠下了基础。

而后，来到2021年的八月底，DDPM的一作发布新的闻了“Classifier Free Guidance”：对“Classifier Guidance”同步进行了加以改进，使得传播基本概念的引导过程仅只需常用传播基本概念本身，而取而代之行无只需依赖性分类器同步进行充分利用。这一新的颖大大地丰富了传播基本概念的运用于范围与灵活性。

△影像都从自Guide Diffusion

均匀分布同型传播基本概念

在均匀分布同型传播基本概念教育领域，在同一小时，也应运而生出了一系列对全面性指导工作有着很大影响的指导工作，例如：

于2021年2月底发布新的闻的发表文章Multinomial Diffusion可谓是最要到探究均匀分布传播基本概念的研究成果之一。该发表文章阐述了均匀分布传播基本概念的基本与运用于。于2021年7月底发布新的闻的D3PM基本上可以被视为全面性所有均匀分布传播基本概念研究成果的原理基础。这份发表文章段落之丰富，以至于其之前参考资料的每一个篇章都足以构成一篇基本的发表文章。于2021年7月底发布新的闻的Insertion and Deletion Diffusion明确提出了一种更为像是的加噪方法有，但尽管新的颖，却似乎没在科学界造成考虑到的摩擦。于2021年8月底发布新的闻的ImageBART将均匀分布传播基本概念用于大规模影像反转成，然而遗憾的是，它无论如何换用自回归基本概念的方式。

这些均匀分布同型传播基本概念的探究为影像反转成教育领域放来了原先思路与方法有，虽然在某些方面取得了进展，但也有待再行进一步的发展和健全。

“百家争鸣”的2021夏-2022年时逢

传播基本概念时域加速，各类“奇奇怪怪”的Diffusion Model，之前等规模文生由此可知。

小时离开2021后于，正逢ICLR和CVPR投稿。在本次CVPR之前，我们半世纪了“Stable Diffusion”的前身“Latent Diffusion”，还有那些为均匀分布Diffusion想到大想到弱的“VQ Diffusion”和“Unleashing Transformers”，以及均匀分布同步进行其实的“MaskGIT”等一系列杰出功绩的指导工作。

它们如水底涟漪般将传播基本概念的上都逐步推展，让其在愈来愈、愈来愈高分辨率的样本集上展现出令人瞩目的精准度，至少从发表文章的尺度来看，功绩非凡。

然而，要似乎让这些传播基本概念在科学界和工业界最常传播以至于产生出圈的影响力，这个规模还缺少，人们还只需等待。

与此同时，本次ICLR会议也铭记了传播基本概念原理上的一个极其重要里程碑，这是之前国研究成果者为之付出巨大共同努力的实质性。来自华东师范大学的“PNDM”和天津大学时逢晚他的团队的“Analytic-DPM”，将传播基本概念的时域加速推向极致。

许多人钦佩的是，“Analytic-DPM”作为唯一一篇大陆单位独立进行时的指导工作，勇夺了ICLR 2022最佳发表文章殊荣项。当然，国外的Google他的团队也为大家放来了基于体能训练的短时间时域器“GGDM”和“Progressive Distillation”等新的颖指导工作。

除了这些，还有一项更为有着借鉴性的指导工作《Label-Efficient Semantic Segmentation with Diffusion Models》，阐述了传播基本概念的潜在密闭埋藏着的丰富文法信息。这也许将借鉴了全面性一系列基于常用传播基本概念作为backbone以及来同步进行焦虑前提的影像撰稿人技术以及传播基本概念在感知教育领域的运用于。

在这个小时节点，传播基本概念迅速走入人们的眼界，各大公众因特网服务纷纷发行牵涉它的发表文章，然而真实情况却是，这类基本概念无论如何主要停留在研究成果教育领域，尤其是在想到影像反转成的圈弟里。

主流的深学习研究成果部门也许无论如何沉浸在Vision Transformer所放来的短暂烧热之前，他们不知道的是，一场针对传播基本概念的冷战即将如同腥风血雨般要到。

“亦同迈进大基本概念时期”：2022时逢-2022后于

Scale up!（扫描！）

2022年的上半年，我们半世纪了传播基本概念的第一个出圈震撼。

三月底，来自OpenAI的DALLE-2横空出世，通过来同步进行传播基本概念以及海量样本，DALLE-2显露出了前所没有的理解和体现能力也。

一系列超现实主义作品通过OpenAI的停止常用API应运而生而出，文生由此可知基本概念也开始在社交因特网服务上造成大受欢迎争论。

△影像都从自DALLE-2

虽然在这个节点，非研究成果部门广为人知的意味著还是文生由此可知基本概念而非背后的传播基本概念支柱。不过还好，DALLE-2的出圈一定程度上造成了愈来愈多研究成果部门对于传播基本概念的关注度。

真实情况上，一场针对传播基本概念的冷战已然在NeurIPS 2022同步进行两场！

在本次会议投稿心率：

DALLE-2停止常用的不到一个月底，来自谷歌的Imagen转化成，摒弃DALLE-2沦为了最先进的文生由此可知基本概念。（勇夺NeurIPS 2022 best paper）针对传播基本概念的设计的争论以及加以改进的edm（勇夺NeurIPS 2022 best paper）。Stable Diffusion的基石Laion-5B发布新的闻(勇夺NeurIPS 2022 best paper）。一系列探究传播基本概念传播基本的探究，Bit-Diffusion、Variational-Diffusion、Cold-Diffusion、Soft-Diffusion、Non-uniform Diffusion、Retrieval-Augmented Diffusion。短时间时域的再行进一步发展：DPM-Solver、DFNO等。愈来愈多的运用于：想到3D反转成的DreamFusion（勇夺ICLR 2023 Best Paper），想到视频反转成的Video Diffusion，想到影像重建的DDRM等。

在这一期之前，传播基本概念本身的原理和设计边界被大大地探究与扩宽，为下半年爆发性浮现的之前下游运用于再行进一步奠下了基础。

△相片都从自DreamFusion

后反转成纪元“冷战叫停”：2022夏-2023年时逢

Diffusion Model+Anything！(传播基本概念+任何两边！)

2022年的下半年注定是传播基本概念发展最为突飞猛进和关键的半年。在经过前一年的不懈探究后，传播基本概念的原理研究成果迅速平稳，研究成果的顺时针逐步转向了大规模的运用于实践。在这半年，在这段小时里，我们铭记了众多教育领域的造就性运用于，有数但不限于：

Image Restoration的爆发运用于：Equilibrium Diffusion、Shadow Diffusion、DDNM、Rain Diffusion。Image Perception的初步就让法：DiffusionDet、Pix2Seq-D、DiffusionInst、MAGE、Peekaboo、ODISE、DDPS、DDP。自然语言反转成教育领域的探究：Diffusion-LM、Diffusion-Seq、DDCap、UniD3。3D反转成上的再行进一步探究：Render3D、Magic3D、Point-E、MeshDiffusion。视频反转成的再行进一步探究：Latent Video Diffusion、Video Fusion医学影像上的探究：MedSegDiff。影像撰稿人上的探究：1）Text-driven（自然语言涡轮）：Prompt-to-prompt、Imagic、InstructPix2Pix、Textual Inversion。2）Subject-driven（普通人涡轮）：Dreambooth、Paint by Example。Stable Diffusion release1）2022-8-22：initial release（初始版本）2）2022-12-7：v2.1 release（v2.1发布新的闻）

大规模的运用于就让法是这一期之前的主旋律，而随着Stable Diffusion的停止常用，文生由此可知基本概念再行度出圈，传播基本概念迅速被大众所广为人知，而全面性一系列基于Stable Diffusion的指导工作也将如相继般要到。

这些指导工作涵盖了影像撰稿人、愈来愈为弱大的3D反转成等教育领域，将影像反转成再行度推进，使其愈来愈加贴近本能市场只需求。

△相片都从自Stable Diffusion v2

“手慢无”：2023时逢-至今

柔性影像反转成与撰稿人是这一期之前的主旋律，这造就了更为更为多的指导工作，在这个期之前，基本上每天都有原先发表文章和Demo转化成，发表文章大轰炸之快，瞠目结舌。

△相片都从自Stable Diffusion 2

总的来说，这一期之前的2D影像的指导工作主要集之前在（有数但不限于）：

1、Controllable Image Generation（柔性的影像反转成）

广义上，柔性反转成有数了后面描述的许多弟关键问题。在这里，我们主要将其限定在如何在文生由此可知的基础转至额外的如文法再分由此可知，深由此可知想到引导的影像反转成，这一般而言也被称之为Grounded Generation、Layout-driven Generation等。

典同型的指导工作有数GLIGEN、ControlNet和T2I Adapter。其之前最为烧爆的当属ControlNet，它的浮现加上基于Lora的定制化，使得传播基本概念沦为了素描圈和动漫圈的一个出乎意料。

△相片来自ControlNet

2、Subject|Concept–driven/Exemplar-based Image Editing（普通人（概念）涡轮的/基于示例的影像撰稿人）

Subject-driven Image Generation这个战斗任务指的是，希望反转成的影像涵盖给定的质点，比如说给一张一只狗的由此可知片，我们希望反转成涵盖这只狗的其他由此可知片。

这个顺时针最广为人知的指导工作当属DreamBooth，它勇夺CVPR 2023的best paper Honorable Mention，与此同时，也是烧热的Lora定制化的基础算法。除此之外，全面性还有一系列指导工作：

如防止基本概念反转成某些 concept，例如裸体，敏感由此可知片的Erasing Concepts from Diffusion Models在一张相片之前同时反转成编码多个concept的FastComposer、Mix of Show、Cone2、SVDiff在一张相片之前嵌入新的质点的（放Grounding信息）的DreamEdit、Anydoor

△相片都从自Anydoor

3、Text-driven Image Editing（自然语言涡轮的影像撰稿人）

基于自然语言的影像撰稿人也是一个极其重要的研究成果顺时针。对于这个战斗任务，我们的市场只需求一般而言是给定一个反转成好的由此可知文对，我们撰稿人文字，再行通过一些方法有，能够对不太可能反转成的影像同步进行撰稿人。例如把“一只狗”代替“一只猫”或者弱化某些用语的均值等。典同型的指导工作有数：

前一个期之前就不太可能浮现的Prompt-to-prompt、Imagic、InstructPix2Pix、Textual Inversion。这个期之前的新的指导工作pix2pix-zero、SEGA、MastCtrl。

△相片来自InstructPix2Pix

4、Image Inpainting/Outpainting（影像修复/扩展）

Inpainting一般而言是指将某一块区域的质点移走或者去掉其他质点，outpainting则是希望将影像外围同步进行便是。传播基本概念的浮现也大大改善了这类战斗任务的性能，一些典同型指导工作有数Repaint、SmartBrush等。

△相片来自SmartBrush

5、Style Transfer（风格移往）

也有一些指导工作来同步进行传播基本概念想到风格移往，如StyleDrop和BLIP-Diffusion。

△相片来自StyleDrop

6、Point-based Interactive Image Editing（基于点的交互式影像撰稿人）

近来特别烧热的DragGAN也放烧了交互式由此可知形撰稿人，Diffusion顺时针follow的指导工作有DragDiffusion、DragonDiffusion以及FreeDrag。

△相片来自DragGAN

这一期之前问世了更为更为多很有意思的指导工作，但从常用的技术上基本可以说明了为：

Attention Control（即通过修正焦虑充分利用撰稿人，由此可知文可视等目的，例如Prompt2Prompt，Attend and Excite等）；

Layer Injection（即通过嵌入一些层充分利用额外的输入依靠，例如ControlNet）；

Finetue（通过Test-time或Training time的Finetune充分利用，例如DreamBooth和InstructPix2Pix）；

Textual Inversion（通过修正text embedding）等。

下一步是什么？

月末到2023年8月底，传播基本概念间距DDPM发表不太可能基本上了2年10个月底，间距Stable DIffusion发布新的闻也基本上了1年。

这一年来的高速发展问世了数不胜数的爆款。基于传播基本概念的反转成式工具，有数但不限于影像反转成，摇滚音乐反转成，视频反转成，3D资产反转成，骨盆单手反转成等，也逐步走入了设计师以及大众的指导工作流，并切切实实地改善着广大打工人的指导灵活性。

尽管如此，局限性的诸多工具仍不完美，不管是在学术上的研究成果还是扩建工程上的落地上无论如何有着很多加以改进的密闭。

典同型的议程有数但不限于，如何让反转成的影像愈来愈加符合自然语言？如何加以改进基本概念使得不无只需黑魔法般的Prompt也能反转成高质量的相片？如何想到愈来愈加柔性的反转成，充分利用个性化质点的转至，指定风格，指定位置？如何对不满意的反转成结果同步进行撰稿人同时依然前后相对的差异性？如何再行进一步改善反转成式基本概念对硬件的市场只需求？等。

这里讲到的许多议程在除此以外指导工作之前意味著均有牵涉，但这些议程的Stable Diffusion下一场意味著仍没要到。

基本上的一年是激动人心的，ChatGPT和Stable Diffusion的发布新的闻为本能迈进非标准人工智能（AGI）迈出了极其重要的一步，而紧接著送行我们的仍将是令人期待和兴奋的后GPT时期。

尽管局限性世界性面临着诸如经济下行，区域冲突，去世界性化等的发展关键问题，尽管黄仁勋把家里所有煤气灶都毁掉也解决不了计算资源短缺的关键问题，但幸运的是，在这个星球上，我们无论如何有着无数出色的研究成果部门在默默耕耘，在朝着充分利用AGI的理就让奋斗。

也许在一段间距的将来，AGI真的能沦为有生之年，谁知道呢？

“The Best Way to Predict the Future is to Create it.”——P.Drucker&A.Lincoln.

（“预测愿景的最好方法有是体现它”——P.德鲁克和A.林肯。）

稀知识

月末至2023年8月底，传播基本概念不太可能斩获各个会议共10篇Best Paper Award、Honorable Mention和Award Nomination:

ICLR 2021(Outstanding Paper Award)-Score-Based Generative Modeling through Stochastic Differential Equations。ICLR 2021杰出功绩发表文章殊荣-基于分数的随机微分方程反转成建模

ICLR 2022(Outstanding Paper Award)-Analytic-DPM:an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models。ICLR 2022杰出功绩发表文章殊荣-解析DPM：传播概率基本概念之前最优逆方差的分析估计。

NeurIPS 2022(Outstanding Paper Award)-Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding。NeurIPS 2022杰出功绩发表文章殊荣-有着精彩语言理解的逼真自然语言到影像传播基本概念。

NeurIPS 2022(Outstanding Paper Award)-Elucidating the Design Space of Diffusion-Based Generative Models。NeurIPS 2022杰出功绩发表文章殊荣-阐明基于传播的反转成基本概念的设计密闭

NeurIPS 2022(Outstanding Paper Award)-LAION-5B: An open large-scale dataset for training next-generation image-text models。NeurIPS 2022杰出功绩发表文章殊荣-LAION-5B：用于体能训练下一代影像自然语言基本概念的停止常用大规模样本集。

ICLR 2023(Outstanding Paper Award)-DreamFusion: Text-to-3D using 2D Diffusion。ICLR 2023杰出功绩发表文章殊荣-DreamFusion：常用 2D 传播将自然语言反转为 3D

CVPR 2023(Award Nomination)-On Distillation of Guided Diffusion Models。CVPR 2023殊荣项提名-关于引导传播基本概念的蒸馏。

CVPR 2023(Honorable Mention)-DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation。CVPR 2023最高殊荣-DreamBooth：微调自然语言到影像传播基本概念以充分利用主题涡轮反转成。

SIGGRAPH 2023(Honorable Mention)-GestureDiffuCLIP: Gesture Diffusion Model With CLIP Latents。SIGGRAPH 2023最高殊荣-GestureDiffuCLIP：有着CLIP潜伏的口令传播基本概念。

SIGGRAPH 2023(Honorable Mention)-Word-as-image for Semantic Typography。SIGGRAPH 2023最高殊荣-文法排版的用语组即影像

— 完 —

量弟位 QbitAI · 头条号签约

。

双醋瑞因停药会复发吗
肠胃绞痛
慢性结膜炎用什么眼药水效果好
昆明做三代试管婴儿多少钱
妈咪爱和肠炎宁颗粒哪个好

标签：模型

上一篇：美股AI热开始退潮？散户高盛开始远离AI

下一篇： 30年前，茘枝1斤20元，如今20元买3斤，你说物价到底涨到了还是跌了