从去年10月开始使用DD(Disco Diffusion)然后惊艳,但是要科学上网,且速度极慢;
后来发现SD(Stable Diffusion)更快,且用PP飞浆在百度就可以操作,于使转到用SD;
然后不到1个月又发现了Mj(midjourney)更惊艳,更快速,且连电脑都不用,手机就可以,于使mj用到现在;
现在mj规模太大,国内越来越难,只能转会SD了。
这时候才发现自己对AI绘画了解还是一知半解的,现在就从零了解起来吧。

Stable diffussion
Stable diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。
想了解Stable Diffusion的背后原理,要了解其背后论文High-Resolution Image Synthesis with Latent Diffusion Models(Latent Diffusion Models),该论文发表于CVPR2022,第一作者是Robin Rombach,来自德国慕尼黑大学机器视觉与学习研究小组。
这个模型的技术来源是发表在 CVPR 2022 中的一篇论文《High-Resolution Image Synthesis with Latent Diffusion Models》,署名作者一共五位,分别来自慕尼黑大学、海德堡大学和 AI 视频剪辑技术创业公司 Runway。
你大体可以理解为:在 Stable Diffusion 的最出名的版本中,Stability AI 出钱搞定了 GPU,慕尼黑大学、海德堡大学、Runway 的研究团队完成了研发。
这一成果的诞生背后还有许多其他的支持力量,包括非营利组织 LAION 提供的数据集。Stable Diffusion 模型最初就是在 LAION-5B 的一个大子集上训练的。LAION-5B 于2022年 3 月发布,而创建这一数据集的资助者是 Doodlebot、Hugging Face 和 Stability AI。
2022年10月Runway 公司官宣发布了 Stable Diffusion v1.5,同时还把模型权重放到了 Hugging Face 的平台上。
Runway 的 CEO、联合创始人也下场解释了,表示自家发布 Stable Diffusion 1.5 版本是没问题的,是对「他们」创造、发布的原始研究的更新。此外,他再次强调了:这个研究的作者们来自 Runway ML 和慕尼黑大学,研究和代码去年也已经开源。
那篇 Stable Diffusion 论文的作者之一 Patrick Esser,身份是 Runway 的首席研究科学家

硬件要求
建议使用不少于 16 GB 内存,并有 60GB 以上的硬盘空间。 需要用到 CUDA 架构,推荐使用 N 卡。(目前已经有了对 A 卡的相关支持,但运算的速度依旧明显慢于 N 卡)

webui和naifu是方便使用SD模型的前端或者说用户图形界面。
https://huggingface.co/CompVis。
novelai是一个ai作画网站,novelai就是基于它训练的;
naifu就是根据它的前端改的,用的模型是在sd基础上利用danbooru数据集训练出来的,现在大家私下用的大部分都是novelai在月初泄漏出来的几个模型。
webui是原生stable diffusion的界面,
naifu是novelai官网使用的界面,
目前使用ai作图常用的界面就是上面两种
naifu提供一些基础的负面效果过滤,相同的要求,你使用webui界面需要写更多的负面tag
我们需要:界面(webui/naifu)+模型,来作画

LORA
LoRA的全称是LoRA: Low-Rank Adaptation of Large Language Models,
可以理解为stable diffusion(SD)模型的一种插件,和hyper-network,controlNet一样,都是在不修改SD模型的前提下,利用少量数据训练出一种画风/IP/人物,实现定制化需求,所需的训练资源比训练SD模要小很多,非常适合社区使用者和个人开发者。
LoRA 和 LyCORIS 都属于微调模型,一般用于控制画风、控制生成的角色、控制角色的姿势等等。

LoRA 和 LyCORIS 的后缀均为 .safetensors,体积较主模型要小得多,一般在 4M – 300M 之间。一般使用 LoRA 模型较多,而 LyCORIS 与 LoRA 相比可调节范围更大,但是需要额外的扩展才可使用。需要管理模型时我们可以进入 WebUI 目录下的 models/LoRA 目录下。

Checkpoint
是预训练模型,Checkpoint 是 Stable Diffusion 中最重要的模型,也是主模型,几乎所有的操作都要依托于主模型进行。而所有的主模型都是基于 Stable Diffusion 模型训练而来,所以有时会被称为 Stable Diffusion 模型。
主模型后缀一般为 .ckpt 或者 .safetensors,并且体积比较庞大,一般在 2G – 7G 之间。而要管理模型我们需要进入 WebUI 目录下的 models/Stable-diffusion 目录下。

ControlNet
ControlNet 是一个及其强大的控制模型,它可以做到画面控制、动作控制、色深控制、色彩控制等等。使用时需要安装相应的扩展才可。
ControlNet 类模型的后缀为 .safetensors。模型的目录为 models/ControlNet

版本
Stable Diffusion 2.0版本包括使用全新的文本编码器(OpenCLIP)训练的文本到图像模型,该模型由LAION在Stability AI的支持下开发,与早期的V1版本相比,这大大提高了生成图像的质量。此版本中的文本到图像模型可以生成默认分辨率为512×512像素和768×768像素的图像。
这些模型在Stability AI的DeepFloyd团队创建的LAION-5B数据集的美学子集上进行训练,然后进一步过滤,使用LAION的NSFW过滤器删除成人内容。Stable Diffusion2.0还包括一个新的Upscale放大扩散模型,可将图像分辨率提高4倍。
下载地址https://github.com/Stability-AI/stablediffusion
https://github.com/amrrs/stable-diffusion-v2-colab-ui

Stable Diffusion 1.5下载
https://huggingface.co/runwayml/stable-diffusion-v1-5

软件部署下载参考:
webui 的官方 wiki
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki

stable diffusion1.5在线演示
https://huggingface.co/spaces/runwayml/stable-diffusion-v1-5

参考资料:
细数 Stable Diffusion 中的各种常用模型 https://www.cnblogs.com/zxbing0066/p/17386939.html
讲解Stable Diffusion的AI绘画基本技术原理 https://zhuanlan.zhihu.com/p/621493124
谁才是SD的官方?https://36kr.com/p/1966968702389382
​Stable Diffusion官方发布最新2.0版本 https://stability.ai/blog/stable-diffusion-v2-release