Tensor.Art
Create

【Stable Diffusion 潜工具书】


Updated:

Stable Diffusion 潜工具书Ver. 4.1.20240520(此副本是4.1.20240520的快照版本)

——如果你想要整个世界,那我也能画给你


链接

(原文链接)腾讯文档:

- Stable Diffusion 潜工具书

(备份链接I)整合了作者制作的几个文档,部分可能缺乏更新,如没有其他情况只看这里即可

- Stable Diffusion 信息并联资源库

(备份链接II)不同步文档链接(很少进行更新):

- 【中文文档】Stable Diffusion 潜工具书(2023/12/22) | Civitai

如果您有不在此列表中的信息/文件、或者其他疑问,请看以下链接

- Stable Diffusion 潜工具书·鹊桥计划


为确保体验,请在阅读本文档时关闭TUSI网站的深色模式

本文档约63000字,文档本体浏览一遍时间约30min,文档总阅读时间约145小时。


警告

1. Ckpts/hypernetworks/embeddings等模型有一定的可能性被混入恶意代码,所以请谨慎使用.ckpt/.pt为扩展名的模型。请及时拉黑让你开启允许加载不安全模型这个选项的人。

2. 在本地部署使用过程中请时刻关注你得GPU/硬盘等硬件状态,并在必要的时候强行停止AI生成以防止您的GPU/其他设备损坏。

3. Stable diffusion没有付费知识,所有所谓付费知识/教程的人均为使用开源内容打信息差,所有变现\行业案例均为学习完基础内容就可以自行操作。开源内容请不要对此进行付费

声明

1.  如果本文档外链的内容中有不合适的内容,与本文档无关。如发现请及时通知文档作者删除不合适的链接。

2.  转载、引用或直接复制本文档内的内容需要注明链接:

文档主链接:Stable Diffusion 潜工具书

3.  文档基于公开材料和经验编写,不对内容准确性负责(但作者会尽力确保内容的准确性和排除民科/错误内容),如文档有错误内容,请联系本文档作者。

4.  另外因您的数据的产生、收集、处理、使用等任何相关事项存在违反法律法规等情况而造成的全部结果及责任均由您自行承担。


文档使用 GFDL 许可,如果您需要在您自己的著作/文章/网站或其他出版物中使用本文档的材料,您必须遵守 GFDL。

如果您创建了一个修改或添加了内容的派生版本,它将继承以下条款:

  • 您的作品也必须以 GFDL 的形式发布

  • 您必须注明文章的作者

  • 您必须提供取得材料“透明版本”的方法

文档具体协议参考 FDL,以仓库副本为准。

Copyright (C)  2023  StableDiffusion潜工具书
Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.3 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled "GNU Free Documentation License".

作者

Stable Diffusion 潜工具书 2023/06/30

作者:Yuno779(作者)

QID:YYIMISE(九月Centaki)

Discord:Yimis7777

邮箱:AsiaAnyN@outlook.com

Civitai:Yuno779 Creator Profile | Civitai

X:𝙔𝙪𝙧𝙞𝙠𝙪 (@ElysiaAnyN) / X (twitter.com)

===DeepGHS===

- deepghs (DeepGHS) (huggingface.co)

- DeepGHS (github.com)

===元素法典===

- 元素法典制作委员会_哔哩哔哩_bilibili

===秋叶甜品店===

- 【秋葉的甜品店】(频道):https://pd.qq.com/s/edfqp0lcy

- 秋葉aaaki的个人空间-秋葉aaaki个人主页-哔哩哔哩视频


前置内容 | SD是什么?这本书又是什么?

a. 前言

Stable Diffusion (稳定扩散) 是一个扩散模型,2022年8月由德国CompVis协同Stability AI和Runway发表论文,并且推出相关程序自此拉开SD绘画的序幕。后来NovelAI(下称nai)在二次元文生图(T2I)领域破圈,并且在模型泄露之后进一步破圈。为了整合nai破圈后的各路信息,nai贴吧组创建了「nai信息并联计划」,但是后续由于缺乏跟新「并联计划」逐步失效。在「并联计划」失效之后,缺乏一个能够集合SD相关知识的文档供大家参考。本文档的目的正在于此,用于弥补并联计划这个空缺。

- NovelAI信息并联计划原址:https://kdocs.cn/l/cre0TwbMkdx3

潜工具书是一个包含有任何可能有用的链接的一个信息存储库。如果你是新人,那么非常推荐你从头查看本文档

本文档仅为中文整理的合集。其中部分链接文档/内容无对应中文版,考虑到部分为专业性文档,需要有很强的英语能力/熟练使用GPT等工具才能正常阅读。固请不要以此问题询问他人,如有需要请自行寻找GPT等工具使用教程。

b. 前置内容

● 信息

在国内,想要正经的接触AI绘画相关的内容是非常困难的,往往需要克服信息阻断链,这个文档在很多地方并不受欢迎(你说是吧,某个L开头的模型网站),因为文档挡住了很多人想要卖课赚钱的路子。当然你既然看到了这个文档,相信你你已经解决了信阻断的问题。当然如果你感兴趣想要知道正确入坑AI绘画有多难的可以查看这个文档:想要接触到正经AI绘画到底有多难

● AI本地部署硬件需求

说明:最低推荐配置的意思是配置低于这个就完全不建议入坑AI绘画了,如果强行想要使用,有些也是没问题的,但是还是建议硬件水平低于最低推荐配置时更换为更为强劲的硬件。当然使用云端部署也是没问题的(纯新人建议使用windows server)

  1. 显卡VRAM在4GB以下的会很容易遇到显存不足的问题,即使使用放大插件也就非常慢(以时间换显存)

  2. 显卡较差/显存严重不足时可以开启CPU模式,但是速度非常慢。你不希望一个小时一张图的话那就别想着用CPU跑图。

● 软件需求

Linux:用Linux当主力系统的还用我教?

Windows:最低要求为Windows 10 64比特,请确保系统已更新至最新版本windows7就不要想了,建议直接升级到win10/win11

macOS:最低要求为macOS Monterey (12.5),如果可以的话请使用最新版macOS。建议使用搭载Apple Silicon M芯片 (M1、M2) 的Mac机型。旧款Mac需配备AMD独立显卡,只有Intel核显的不能使用

正文内容

https://tusi.cn/articles/730154185623963570

https://tusi.cn/articles/730157424029312247

https://tusi.cn/articles/730162358946747397

https://tusi.cn/articles/730213739640645910

Q & A

● VAE是什么,出图发灰怎么办:

VAE 是一种神经网络,可将标准的 RGB 图像和潜空间表征互相转换。潜空间表征是 Stable Diffusion 在采样过程中的实际操作对象。(即进度条处于 "空" 和 "满" 之间的状态)。 对于文生图,VAE 仅用于在采样完成后创建 RGB 图像。 对于图生图,VAE 用于在采样前把用户输入的图像处理为潜空间表征,并在采样后创建 RGB 图像。

说人话:简单的说就是把AI输出翻译成人能看到的图片

出图发灰是因为模型内的VAE存在问题,可以将模型内的VAE更换为其他适合的VAE,在SD-Webui中直接更换“外置”VAE即可

● 安装报错打不开怎么办:

如果你是秋叶整合包,那么可以查看此文档:【必读】萌新基础常识 (wa9.cn)

讨论以下插件你可能不会得到除卸载以外的任何答案:

Dreambooth、a1111-sd-webui-locon/lycoris、Deforum、TemporalKit、Kohya-ss Additional Networks

如果不是使用整合包,且出现问题无法自行解决,那么请看这里并使用整合包:

SD WebUI秋叶整合包与SD Webui绘世启动器

- 【AI绘画·11月最新】Stable Diffusion整合包v4.4发布!

- 【AI绘画】绘世启动器正式发布!!

● 说了一番也不推荐模型……?

这里除了我自己夹带本人制作的私货模型以外不会推荐任何其他模型,在看完一些文章之后你理应能够自行分辨模型的质量,如果不能那就再去看一遍文章的内容,如果还不能分辨,这边建议先上学再上网。当然你不想看文档,那也不怪你,只是你不适合学习SD相关的东西,我建议你立刻关闭文档并卸载你的AI软件。

● 有一些东西没有加入这里:

部分文档含有非常多的错误内容,为了确保新人不会获得错误的消息,我将其剔除文档。另外为了防止一些潜在的风险和其他问题有些其他的文档也不会放到这里。

如果有其他需要加入本文档的内容,请查看此链接:

- Stable Diffusion 潜工具书·鹊桥计划

NovelAI信息并联计划失效的原因之二就是民科内容多和大家无法自发的将新内容放到并联计划上,所以潜工具书将不会采用并联计划的模式来避免这种情况的发生。

● 模型奇怪的大小?

一般而言奇怪大小的模型都会或多或少的含有一些垃圾数据或无效精度。模型融合经常会出现很多webui在跑图过程中实际用不上的junk data,模型里只有固定的那些内容才能够被加载,多出的全是垃圾数据。很多的融合模型都带有这么一堆的垃圾数据,并且很多人总是认为这些junk data删掉会影响模型本身而不去删除。

其中影响最大的是模型EMA:模型在Merge后EMA将不再准确反映UNET,这种情况下EMA不止没啥用,还会影响模型的训练。

另外默认情况下,webui 会将所有加载的模型转换为FP16使用。所以很多时候更高的精度也是没啥意义的。旧版本SuperMerge插件也会整出来一些float64的weight造成大小异常。

这些都会浪费磁盘空间。

● 有什么新的东西?

详情查看3.c推荐的几个b站UP的动态或者视频,一般而言更新都是比较快的

● 为什么经常看到批评某些东西的内容

首先,暴躁程序员天天因为技术上的原因喷人是很常见的一件事,有些人或者事虽然经常因为技术上的问题吵来吵去,但是私底下却并没有这么水火不容。

另外就是,一部分比较差的模型或者一些其他东西,有很多人出于比如面子或者是社交上的考量,而不去批评别人的东西。别人出了个模型或者别的就一直要被追着说好,只能夸,不能批评。这不是个好现象,虚伪的称赞对谁都不好。

这里不是绘圈或AI模型圈,不好的东西受到批评是应该的,而且这对于被批评的事物也是有利的。

● 说半天也不推荐模型也不解决问题

这个文档的大部分内容是让你知道为什么,而不是怎么做。全都看完且理解了里面的内容,你自然就会自己分辨模型、自己炼模型,那些所谓的“应用向工作流”自然而然的就可以手到拈来。

● 堆友的教程相关内容:

完全不建议看堆友上的任何教程,因为新人完全没有对于这些知识是否正确的分辨能力,而堆友上的教程普遍都有一些错误的内容,或者是只根据现象就总结结论的“民科理论”,这会对新人理论体系的构建产生非常差的影响。

私货环节 | 模型推荐

● kohakuXL E

Kohaku XL E是Kohaku XL系列最新版本,使用LyCORIS微调,在消费级硬件上训练,并且完全开源。使用前请看模型卡,为确保效果请使用模型卡的格式。

- (3) Kohaku-XL Epsilon - rev1 | 吐司 tusi.cn

● animagine xl 3.1

Animagine XL 3.1是Animagine XL V3系列的一个更新,增强了之前的版本Animagine XL 3.0。Animagine XL 3.1建立在Stable Diffusion XL的基础上,旨在通过制作准确而详细的动画角色表示,成为动漫迷、艺术家和内容创作者的宝贵资源。

- (21) Animagine XL - V3 | Tensor.Art

- cagliostrolab/animagine-xl-3.1 · Hugging Face

- Animagine XL V3.1 - v3.1 | Stable Diffusion Checkpoint | Civitai

● AnythingXL

- (1) 万象熔炉XL | AnythingXL - beta4 | 吐司 TusiArt.com

- 万象熔炉 | Anything XL - XL | Stable Diffusion Checkpoint | Civitai

拒绝民科

请勿只根据现象就去“定义”某些理论

a. 相关问题原因&说明

民科/错误理论提出的原因常见的无非有三种。

定义:只通过现象就去“定义”一些事物,并且将其当作理论来使用传播,很多种情况下这些提出的理论都只是巧合或者适用范围相当有限的东西。例如:GhostInShell的一些理论/VAE相关的内容就属于此。

似乎:很多内容是我们心理上感觉其效果的,但是实际上并没有这一回事,并且完全不起作用。但是仍然有人将其作为理论拿出来使用。例如:当初法典组融合研究的一些东西就属于此。

掩饰:有些过于离谱的内容纯属是为了掩盖自己啥都不懂论文没看文档没读……的,但是由于提出这些东西的人往往有很高的流量,就会影响相当多的人,甚至一部分新人小白听取了“业界大佬”的发言,就认为确实是这样的。例如:墨幽的HIFI级大模型就是属于此的

另外AI绘画使用的超低门槛与实际研究群体的超高门槛之间存在着非常严重的断层,这就意味着玄学民科的内容很多人是完全没有办法分辨的,这会导致很多人有意无意的也成为一些错误理论的传播者。

- 模型结构科普第一辑

- 模型理论科普第二辑

这个系列文档科普了一些模型结构的内容,然而还有更多的玄学民科内容还在等着我们去根除谬误,当然这个文档也有可能会有错误内容,有问题也请直接指出。

b. SD社区现状

SD目前并没有专门的交流社区/或者说即使有交流社区那么环境也是比较差的(例如猫鼠队),而一般的网站又过于简单零碎,各自为阵的群聊也有一部分人在输出玄学民科内容,并且还有相当的一部分人进行吹捧。而刚接触的新人也没啥分辨能力,再加上一部分国内网站不干人事的追求流量的和听信民科内容行为(曾有群友在某网站引用论文和其官方说明文档的内容指出错误的信息,但是该网站以“我的观点”与主流观点不同为由拒绝,且后续还有其他过分的行为)以及一些流量UP为了流量胡乱推荐、随意拉踩,自然然的会出现,玩了几个月发现自己玩的都是垃圾,或者自己也加入输出这种民科内容等等情况。

c. 举例说明

相关举例:
“采样器影响提示词准确性”
“LoRA训练dim无脑开128最好”
“训练时长和模型质量是直接相关的”
“训练集图片越大质量越好”
……

以上这些都是已经证伪的民科理论,相关的东西还有很多。

● 墨幽(HIFI级ai绘图模型):

- 【AI绘画】模型修剪教程:8G模型顶级精细?全是垃圾!嘲笑他人命运,尊重他人命运 - 哔哩哔哩 (bilibili.com)

(图片MoYou为错误结论)

● 模型VAE:

- 【AI绘画】不是每个模型都需要外挂VAE! VAE真正的作用是什么? - 哔哩哔哩 (bilibili.com)

● GhostMix

Ghostshell相关的理论和勘误:

- GhostInShell你还想骗人多久?

当然其他的东西也是有非常多的,只是没有有流量的人说明我提出了必定被喷,为了避免麻烦也是因为Happy Lazy就懒得说了,有兴趣自己去看论文或者其他作者的讲解文档。

6
0

Comments