在线生图

轻舟

Q裙:673619373 「怪诞美学」诡谲美学聚集地 「病名为爱」丧系唯美插画向 「玉软花柔」美女的自我养成 「一夕千念」妖冶多画风合集 「奇思妙想」多功能系工具箱 「重启人生」自定义游戏设计 开新坑中......
254
粉丝
2
关注
254K
运行
223
下载人数
2.1K
获赞

AI小工具

查看全部
699441789322523299
CHECKPOINT
全网独家

「一夕千念」致幻世界美式迷幻视觉插画设计- v1

4.2K 54
697585680555055308
CHECKPOINT
全网独家

「一夕千念」绝赞二次元超万用精美向- v1

9.3K 94
635714387434345250
CHECKPOINT
全网独家

VirtualWorld|全能向真实模型CO**IX- v1

90K 273
655525941994349118
LORA
全网独家

「奇思妙想」超强氛围感和细节滤镜增强器- v1

15K 110
703771163605602516
LORA
全网独家

「重启人生俱乐部」➤ 魔法之眼【小红书同款】- v1

27K 327
727514790790012128
LORA
全网独家

毛绒材质LOGO视觉设计-v1

69 2
725712334749698326
LORA
全网独家

膨胀材质LOGO视觉设计- v1

110 2
715264264161570986
LORA
全网独家

「一夕千念」➤西方中世纪精致蒸汽朋克概念画风- v1

890 11
709695409565532990
CHECKPOINT
全网独家

「病名为爱」➤神祈- v1

2.5K 58
709061687141123648
LORA
全网独家

「一夕千念」卡通彩色仿纹身稿件插画设计- v1

232 4
702812702998878024
LORA
全网独家

「一夕千念」复古巴洛克边框卡牌背景- v1

208 11
699412995865905194
CHECKPOINT
全网独家

「一夕千念」灵魂切割极客美学视觉插画设计- v1

581 17
696059957847570292
LORA
全网独家

「一夕千念」仿日式纹身稿件插画设计- v1

1.2K 17
703822836357267799
LORA
全网独家

「一夕千念」七宗罪Saligia概念插画设计- v1

752 19
659841679752423697
LORA
全网独家

「奇思妙想」魅惑御姐脸妆容+滤镜噪点真实人像-v1

29K 76
656829821051014478
LORA
全网独家

「一夕千念」➤儿童插画绘本画风- v1

54 11
656727729678471166
LORA
全网独家

「一夕千念」➤平涂温柔系二次元画风- v1

171 14
654592323478495178
LORA
全网独家

「怪诞美学」➤绝对诡谲·恐怖爱好者的狂欢- v1

3.2K 66
643052489383408945
CHECKPOINT
全网独家

「奇思妙想」万物皆可手办化PVC超还原质感-v1

3.7K 81
642265741569282768
CHECKPOINT
全网独家

「一夕千念」超治愈赛璐璐平涂二次元通用-v1

6.3K 193
【吐司创造营】第一期第二课:文生图专题!先从了解各项参数开始!

【吐司创造营】第一期第二课:文生图专题!先从了解各项参数开始!

该文章由【吐司创造营】直播的部分脚本编成,部分操作向和演示向内容无法用文本撰写,故推荐配合回放观看效果更佳。部分观点来源网络,如有错误欢迎指正! 本期文章对应回放为👉:BV1Kw4m1d7TV 什么是文生图 根据输入text用text encoder提取text embeddings,同时初始化一个随机噪音noise(latent上的,512x512图像对应的noise维度为64x64x4,这也是为什么我们训练1.5模型的时候设置图片大小需要是64的倍数),然后将text embeddings和noise送入扩散模型UNet中生成去噪后的latent,最后送入autoencoder的decoder模块得到生成的图像。 checkpoin大模型 定义出图风格,文件大小一般在2GB-10GB不等,以safetensors或者ckpt的后缀结尾,为什么内存差距这么大,这里要讲到一个知识点叫EMA。我们看一下比较经典的一个案例吧,SD1.5的初始下载模型有两个命名,一个是SD1.5-pruned-8GB,一个是SD1.5EMA-4GB,这俩啥意思呢,模型的pruning就是带EMA的版本,EMA是一种训练策略,在训练的时候模型会有一个主模型例如Unet,同时也会保存一个copy即EMA_Unet,这个EMA_Unet可以简单地看作是Unet的一个权值平均化的版本,可以使得训练更加稳定。但是SD-WebUI是默认fp16精度不使用EMA的,所以这一部分的数据就多出来了,那随着现在训练门槛的降低(至少没有之前高)很多融合模型在融合的时候哪怕融了带EMA的A模型然后加入了不带EMA的B模型,那这个EMA就多出来了,是无效数据,但是它占内存,本质上其实出图效果没有太大差别。SD1.5大模型2G左右,XL是6个G左右。 lora微调模型 稳定扩散模型的训练方法,它在不干涉神经网络运算层的情况下,插入一些低阶的运算层,通过训练这些低阶运算层来影响出图。可以指定人物、元素、场景、画风、细节。市面上的lora我简单分为3类,普通lora,用的最多的,功能性lora,调整身材比例,面部大小等等,其他lora,如加细节,加姿势等。我建议大家在使用的时候去看一下模型主页作者有没有特殊说明给一些推荐的lora权重,吐司的默认lora权重是0.8,还是比较合适的。(这里强调一下过拟合的概念,比如说打标不清晰不精准造成模型出图混乱的;或者神经网络模型遭受灾难性遗忘现象,模型在接受新任务训练后可能会严重失去其在任务上的泛化能力。这通常意味着新任务可能会覆盖过去学习的权重,从而降低过去任务的模型性能。如果不解决这个问题,单个神经网络将无法适应持续学习的场景,因为它在学习新事物时会忘记现有的信息/知识。简单的说就是容量有限的情况下,系统为了执行一个新的任务,就必须擦除旧有的数据。)但它并不是一无是处嗷,我们刚刚说到还有一种功能性lora,本质上就是差异炼丹,就需要一些炼的非常过头的模型。 VAE vae模型是一种基于变分自编码器的神经网络模型,它的作用就是从你输入的数据中学习,然后再对新样本进行生成和重建,从而增加视觉效果,所以我们简单点把它理解成一个滤镜和微调模型就行了,那么吐司提供的这些vae当中要注意一下如果你的大模型是选用的SDXL模型,那么也要选择相对应的VAE模型。对于具体VAE模型的选取原则,还是要参考作者的模型说明,VAE被破坏的时候出图会发灰,有的作者在训练的时候会再添加一次VAE,但有的作者不会,那如果说你判断不了作者有没有在训练的时候内置VAE,你就出图试试,如果说出来的图片色彩发灰,明度偏暗,可以外部挂载一个VAE改善一下出图色彩质量。那这边推荐几个通用的VAE,如果是二次元向的推荐animevae.pt,ClearVAE.safetensors;真人向推荐vae-ft-mse-840000-ema-pruned.ckpt。 clip跳过层 它是语言与图像的对比预训练,让SD数据库里的处理模块使语言和图像建立关系,数值越高关键词和图片的关系就会越低,数值越低,关键词和图片的关系就会越高。推荐是2-4。 提示词 其实比较简单,主要说一下吐司上面这三个小按钮。第一个解析图片提示词,可以上传一张图片提取提示词,比较类似sdwebui的deepbooru反推功能。第二个是导入参数,它可以自动提取你剪辑版里的sd参数,复制到这里点确定可以自动填入。第三个是一个随机提示词按钮,没有灵感的时候就随机出图,但这个随机提示词是只改变正向提示词的,负向提示词是固定不动。今天来讲一下这个BREAK,提示词书写的界面中主要含有的信息有两个,其一是我们输入在提示框中的信息,第二是显示在右上角的当前句子包含的token数量,token的长短取决于该单词的常见程度的,越常见的单词其token数量也就越短。当提示词每超过75就会对其进行截断,将截断之前的prompt作为一整个句子参与图像生成,后续的prompt依次进行上述操作,由于每一个句子中位置靠前的自然权重会稍高于位置靠后的词,所以有以下两个结论:由于两个句子之间的存在隔离,所以位置在75的提示词天然就会与位置在76的提示词有一定的隔离;(比如说green_dress在位置72,blue_hair在位置80,所以二者之间产生了天然隔离)由于句子进入模型参与影响有先后顺序,所以靠前句子的影响因素大于靠后的句子(这个逻辑上可以直接类比到位置靠前的提示词天然权重大于位置靠后的提示词)。BREAK字面上是打断的意思嘛,它的作用就是隔断上下文,BREAK会强制结束当前这个句子,即使这个句子中只有一个1girl,也会被填充成75个token。 采样算法 怎么选择最优质的采样算法主要是从收敛,时间,步数还有你的显存来决定,那吐司因为是线上集群都是超好的显卡我们就不考虑显卡的因素。 给大家整理了一下如果你想使用快速、新颖且质量不错的图片,那么出色的选择是DPM++ 2M Karras,20 – 30 步比如说2.5D或者3D的出图,或者人像。 如果您想要高质量的图像并且不关心收敛,那么好的选择是具有10-15 步的DPM++ SDE Karras(注意:这是一个较慢的采样器),或者说是DDIM,那著名的墨幽大大就是比较推荐在使用他的大模型的时候用DDIM这个采样器。DDIM其实是最古老的一版采样器了,比较过时,如果不是作者特意要求的话,不建议当首选。(啥是收敛:在扩散过程中,SD利用文本向量和噪声图像作为条件输入,给出每一步变换的概率分布。这样,SD可以根据文本指导噪声图像向目标图像收敛,并保持图像的清晰度和连贯性。) Euler a这个采样器就是比较快和稳,而且比较适合二次元出图。 迭代采样步数 越高画面细节越多,越慢,一般范围在15-40。 📢 :迭代是重复反馈的动作,神经网络中我们希望通过迭代进行多次的训练以到达所需的目标或结果。 每一次迭代得到的结果都会被作为下一次迭代的初始值。 一个迭代= 一个正向通过+ 一个反向通过;更多的迭代步数可能会有更好的生成效果,更多细节和锐化,但是会导致生成时间变长。而在实际应用中,30 步和50 步之间的差异几乎无法区分。太多的迭代步数也可能适得其反,几乎不会有提高。 进行图生图的时候,正常情况下更弱的降噪强度需要更少的迭代步数(这是工作原理决定的)。可以在设置里更改,让程序确切执行滑块指定的迭代步数。 CFG 它控制生成图片与提示词的接近程度。数值越高,画面越贴近提示词的描述;数值越低,画面更有变化性更偏向于让AI自由发挥。建议3-15,中值一般是6-8。 高清放大 “4x-UltraSharp”、“R-ESRGAN 4x+”擅长处理写实图像,“R-ESRGAN 4x+ Anime6B”、"4x-AnimeSharp"擅长动画图像。 重绘幅度 越低与原图越相似,越高越和原图没关系。 高清人物立绘制作 【纯演示向】 ADetailer:吐司的ADetailer也是可以添加lora的,这里的lora比较推荐用一些脸膜。本质上的提示词逻辑跟文生图的提示词没有什么特殊的地方,但是更建议写一些对面貌的描述词,比如说发色、瞳色这种能增强特征的提示词,如果说不填写的话,则是继承文生图的prompt词。 置信度是指控制模型检测结果的可信度,sedwebui的AD修复的时候是会显示有一个红色的框,那么增大数值可获得更高的修复准确度,同时这个框的识别就越准确,如果说你的画面中有多人出现的情况但你只想修复最前面的一个人脸,那么这个值就要拉高。那同样的如果你想修复多个人脸,降低数值可增大修复范围。(这一部分推荐去听回放,有演示讲的更清楚。) 重绘蒙版模糊可以理解为ps里的边缘羽化强度,数值越小越锐利,越大越模糊,想衔接更自然的话,这个值可以稍微调大一点。 重绘噪声强度:对于面部修复的结果影响仅限于产生不同的面部特征。推荐0.4-0.6。 Adetailer的模型如何选择,我这边截取了原作者在github上给的一些模型分类和作用大家可以参考一下。 【上节课有人要的论文整理】 SD 1.4官方项目:CompVis/stable-diffusion SD 1.5官方项目:runwayml/stable-diffusion SD 2.x官方项目:Stability-AI/stablediffusion diffusers库中的SD代码pipelines:diffusers/pipelines/stable_diffusion SD核心论文:High-Resolution Image Synthesis with Latent Diffusion Models SD Turbo技术报告:adversarial_diffusion_distillation

帖子