吐司 tusiart.com

生成图片

Kontext、Flux、Illustirous 及搭载数千款 LoRA 的 SD

视频生成

快速生成,全面掌控

工作流模式

浏览器中的ComfyUI

在线训练

现在支持Wan LoRA训练

模型

879112273841358505
CHECKPOINT FLUX.1 Kontext Dev

FLUX.1 Kontext Dev-fp8

839 828
876405816305909837
CHECKPOINT 基础模型 XL
全网独家

AnimaTensor Pro-Pro

1K 1K
876407506375577457
CHECKPOINT 基础模型 XL
全网独家

AnimaTensor-Regular

353 620
874925685750144595
CHECKPOINT Illustrious
全网首发

Illustrious-XL-V3.0-Stable-base

1.2K 1.3K
720998724106621682
LORA 基础模型 XL

As_线稿大师加强版- RE

21K 159
854224437036198165
LORA 基础模型 F.1
全网独家

油画女孩-v1.0

685 4
789956545753383761
LORA 基础模型 1.5

【画风系列】-纸艺-1.0

29 2
746477805837069923
CHECKPOINT 基础模型 XL
全网独家

Hyper-SD极速!国摄天香XL-0.4算力出图-3.0

2.2K 55
713558230133048566
LORA 基础模型 XL

白棱XL_魔法阵-bailing XL_Magic Array- v1.0

1.9K 64
868129022142378416
LORA 基础模型 F.1
全网独家

敦煌壁画-敦煌壁画风V1

396 4
696754724638199968
LORA 基础模型 1.5

铅笔画pencil drawing-v1.0

177 20
635243912421724071
LORA 基础模型 1.5

illugame游戏视觉场景-0.1

3K 137
862182637773528443
LORA 基础模型 F.1
全网独家

建筑室内_日式_原木风_混合空间Lora_Flux-D29

180 4
701910321775919351
LORA 基础模型 1.5
全网首发

国风写意水墨山水画- 1.1

3.9K 51
769154150828333135
LORA 基础模型 F.1
全网独家

Flux Anime Blue Archive Style | 蔚蓝档案PV风格-200Epoch

3.2K 75
758009161666616757
LORA 基础模型 1.5
全网首发

复古少女的光影诗-1.0

434 15
754008842011974822
CHECKPOINT 基础模型 XL

乱芳华-1.0

9.3K 38
805587057025173759
LORA 基础模型 F.1

flux-lora-小说推文-极致高富帅,清新画风,双男主-v10

636 12
VIDEO WAN_2_1_14B

Squish Effect (Wan2.1 I2V LoRA)-v1.0

82 40
707135982715127062
LORA 基础模型 1.5
全网独家

【色彩插画】洛丽塔小魔女-v1.0

1.4K 34

工作流

文章

AI视觉革命:广告图片智能设计全流程解析与实战指南

AI视觉革命:广告图片智能设计全流程解析与实战指南

开篇:从PS到SD——设计工具的范式转移 2023年,可口可乐全球创意团队用MidJourney生成的广告图在戛纳创意节摘金,这张融合气泡动力学与梵高笔触的视觉作品,仅用2小时完成从概念到成稿的跨越。这场变革标志着广告设计进入AI原生时代——设计师的核心能力正从操作技巧转向「提示词工程」与「算法审美」。本文将拆解AI广告设计的完整工作流,并提供可落地的实战方法论。---一、AI广告设计双螺旋流程 1. 需求解码阶段 - 关键词蒸馏术:用品牌定位立方体(Brand Cube)分解需求 案例实操:运动品牌新品推广 - 产品属性:气垫跑鞋/减震科技/超轻量化 - 情感诉求:自由感/突破极限/城市穿梭 - 文化符号:霓虹光效/赛博朋克建筑/流体动力学 - 视觉语法转换:将抽象概念转化为AI可识别参数 ``` /imagine prompt: Nike Air Zoom Pulse 2024, cyberpunk cityscape background, neon light trails with fluid dynamics simulation, ultra-detailed 3D rendering, dynamic angle 45 degrees, cinematic lighting, chromatic aberration --v 6 --ar 16:9 ``` 2. 算法共创阶段 - 多模态模型组合拳: - Stable Diffusion XL:基础构图生成 - ControlNet:精确控制姿势/透视(OpenPose+Depth Map) - LoRA微调:注入品牌视觉DNA(如Hermès橙色调校模型) - 迭代进化策略: 1. 批量生成200+变体 2. 用CLIP模型进行美学评分排序 3. 对TOP10作品进行特征解构 4. 重组优势基因二次进化 ---二、三大核心技术教学 1. 提示词炼金术(Prompt Engineering) - 结构化公式: ``` 主体描述+ 风格指令+ 技术参数+ 质量强化 ``` 实战案例:高端香水广告 ``` A crystal perfume bottle exploding into galaxy particles, Baroque floral patterns blending with quantum dots, Octane render 8K, Unreal Engine 5 lumen lighting, --chaos 60 --stylize 850 ``` - 语义杠杆技巧: - 权重分配:`(golden hour:1.3)` 强化黄昏光线 - 否定提示:`--no flat lighting, low contrast` 2. 风格迁移实战 - 三步打造品牌专属模型: 1. 收集品牌历史视觉资产(300+高清图) 2. 使用Dreambooth进行微调训练 3. 输出`.safetensors`格式风格模型 - 实时风格测试指令: ``` /test style_model_X perfume_ad --compare original ``` 3. 动态广告生成技术 - Runway Gen-2视频工作流: ``` 静态图→ 添加动态蒙版→ 设置粒子运动轨迹→ 输出15秒视频广告(含光流补帧) ``` - 交互式广告开发: 使用Three.js+Stable Diffusion API构建网页端实时生成广告系统,用户滑动改变产品颜色时,AI实时渲染对应场景。---三、商业级设计规范 1. 合规性检查清单 - 版权检测:用LAION-5B数据库反向溯源 - 品牌安全:设置负面词过滤器 ``` blocked_words = ["violence", "nudity", "competitor_brand"] ``` - 文化适配:部署地域化审核模型(如中东版本自动添加长袍元素)2. 人机协作SOP - AI负责: - 80%基础素材生成 - 100%风格化渲染 - 动态效果预演 - 人类负责: - 核心创意概念 - 情感温度把控 - 文化隐喻植入 ---四、未来战场:生成式AI的进化挑战 1. 版权困局突破:Adobe Firefly构建的伦理训练模型,使用4亿张授权图片的数据集 2. 实时生成革命:NVIDIA Omniverse+AI工作流,实现广告画面随环境数据动态变化 3. 脑机接口预演:Neuralink动物实验显示,通过脑电波信号调整视觉参数的可行性 设计师生存指南: - 掌握「视觉策展人」新角色:从创造者进化为AI训练师 - 建立「算法审美」评估体系:量化美感要素(黄金分割比/色彩熵值/视觉焦点热力) - 修炼「跨次元叙事」能力:在物理世界与数字孪生空间同步设计 ---结语: 当Canva的最新AI工具能在11秒内生成300张合格广告图,设计师的价值不再体现在鼠标点击次数。那些懂得用提示词吟唱视觉诗篇、能用算法缺陷制造意外惊喜、在数字洪流中坚守人性温度的新世代创作者,正在重新定义广告设计的本质。记住:AI是0与1的排列组合,而人类始终掌握着启动算法的那个「灵感开关」。
27
用几句话拍成一部王家卫风格的电影片段

用几句话拍成一部王家卫风格的电影片段

~ 写在前面~我打算用三种方式尝试用AI创作短剧片段,分别是:1、混元文生视频2、万相图生视频3、常用云端资源创作图生视频。本文着重介绍第一种:混元文生视频。你也可以点击了解第三种:时下热门的AI短剧创作过程。 ~ 正文开始~王家卫导演的电影独具风格,其电影画面氛围丰富而忧郁、光影效果对人物性格的塑造令人过目不忘。他的电影,总是以一种独特的艺术风格吸引着观众的目光。他善于运用光影的变化,营造出一种既真实又梦幻的氛围,让观众仿佛置身于一个充满诗意的世界。而他对人物性格的塑造更是细腻入微,通过光影的交织,将人物的内心世界展现得淋漓尽致,令人过目不忘。本文将通过混元文生视频大模型,结合人物LoRA进行作品创作。先欣赏一段AI生成的电影介绍:因为吐司文件上传限制(不能超过5M),因此这段视频效果已经大打折扣,无论从清晰度和色彩上都损失了很多,也无法听到背景音乐,强烈建议点击这里查看清晰原视频。如何创作这样的视频?第一步:你要本地部署混元文生视频工作流,这个不是本文的阐述范围,如果你需要混元部署相关的资源,可以点击这里免费获取。第二步:非常重要的环节,要给自己要创作的片段做脚本规划,你要表现什么内容,这段内容可以分为几个分镜头,每个分镜头用什么文生视频提示词。如果你不好掌控,可以尽量利用deepseek,让ds帮你写一段1分钟的王家卫导演风格的电影片段,反应女主角的生活片段(具体可以简单要求),并设计分镜头,每个分镜头的文生视频提示词。这段23秒的视频内容比较简单,就是女主人公的某个生活瞬间,其实只用了两段提示词,一段描述抽烟,一段描述向镜头走动。因为AI生成内容的随机性,我们得到了丰富多样的动作效果,从抽烟时的悠闲姿态到向镜头走动时的自信步伐,每一个细节都被精准地捕捉和呈现。第三步:有了脚本和分镜头,接下来就是通过混元文生视频工作流创作视频。注意,你可能在这个创作过程中获得更多的灵感,反过来调整你的脚本和分镜头。需要说明的是,为了保证模特脸部的一致性,我专门训练了一个混元文生视频的人物模型LoRA,LoRA对脸部和身体都做了训练,经过多次测试,LoRA模型展现出了出色的泛化能力,无论是在多变的服装还是复杂的场景中,都能稳定地呈现出高质量的视觉效果。这种稳定性,正是得益于混元文生视频大模型的卓越性能。关于LoRA的训练,在几秒钟的短视频中似乎不重要,但如果你要创作短片,主角需要多次出现,那么定脸的LoRA就至关重要了。如果你要学习视频LoRA的训练,可以联系雯雯wenwen061106进行一对一的教学。这段抽烟视频,AI赋予了人物转身的动作(提示词里没有),动作自然流畅:这段脸部特写的正面抽烟视频,虽然没有烟雾,但我很喜欢,在剪辑中全部都用了:第四步:剪辑合成。使用剪映对你在第三步中创作的视频素材进行剪辑加工,增加背景音乐、音效、过场效果等等,最终形成短片成品,点击这里查看清晰原视频。抛砖引玉,这段视频不代表什么,只是一次文生视频的尝试,是在不到几个小时内完成的,你如果对影视创作很熟练,相信效率会更高、效果也会更好。~ 复盘~最后从价值上简要的分析。创作这个片段的目的,最大的意义就是文生视频的锁脸。在传统的AI短视频制作流程中,创作者通常需要先设定一个具有独特个性的IP形象,然后通过文生图技术生成静态图像,再将这些图像转化为动态视频。这个过程不仅耗时,而且在图像到视频的转换过程中,往往会丢失一些细节,导致最终效果不尽如人意。然而,混元、万相等文生视频的出现,为这一流程带来了革命性的变化。通过上述例子,我们可以清晰地看到,混元视频结合LoRA锁脸技术和提示词场景服装行为设定的方式,能够直接通过提示词生成高质量的视频素材,极大地简化了制作流程,提高了创作效率。与现在主流的通过图片锁脸的文生图+图生视频素材准备过程不同,文生视频+LoRA锁脸+提示词场景服装行为设定的方式,完全可以直接通过提示词实现账号素材的准备工作。这种新的创作模式不仅节省了时间和精力,还能够更好地保持IP形象的一致性和连贯性,使得视频内容更加生动和真实。随着技术的不断进步和应用场景的不断拓展,混元视频有望成为未来AI短视频制作的主流方式,为创作者带来更多的创意空间和商业机会。更多视频、短片创作推荐文章:时下热门的AI短剧创作过程如何用文生视频创作商品广告一次叫外卖引发的LoRA创作灵感作者雯雯(VX:wenwen061106),一个八级LoRA炼丹师,设计师,国际PS认证师,AI精品资源站 站长,雯雯AI影视工作室期待你的加入。
26
1
点击TA 2024回忆报告,查看你深度参与的“环节”

点击TA 2024回忆报告,查看你深度参与的“环节”

点击TA 2024回忆报告,查看你深度参与的“环节”请注意!前方正在向你走来的是,2024 TA年度报告。出乎整个运营团队预料的是,今年站内的年度prompt词是「hair」。这意味着, hair被大量的写入提示词中,且是站内使用频率最高的提示词。hair的使用次数高达惊人的 2亿+ !但仔细想来,如果想对某个人物图像、角色图像做到更精确的控制,头发是必不可少的一环,而头发往往又代表角色的鲜明特征。回顾站内的提示词构成,诸如「long hair」「short hair」「red hair」等简单对头发的描述占大量比重。今年下半年开始,中文提示词的占比也逐渐上升。是的没错,我们很高兴看到中文模型生态在吐司不断孕育发展壮大。从此,生图不用再受英文提示词束缚,有了全新中文语言的可能,可以一起用中文描绘独属于国人的究极浪漫。提示词从“头”开始,和我们从新起航,在即将到来的新的一年里TA也要和大家继续相伴,今天你生图用「hair」了吗~截止目前,我们在全球托管40w+ AI模型,其中热度top5的模型是日均生成量30w+,每天有超过2w+ 个帖子发布在平台上,月均浏览2,700w+,分享内容350w+ ,这是今年热度Top5的帖子在今年,我们拥有过万的工作流和AI小工具,使用场景也更加多样,能够解决更多实际应用场景上的问题很高兴在今年网站用户突破320 w!有超过千位在吐司诞生月份就加入的老朋友依旧保持活跃!翻看站内的作品和社群,我们看到很多在网站建立之初加入,并一直陪伴着我们的用户,小李、今宵、hans、浅笑、千秋九月等等等等,感谢你们在网站还相对简陋不成熟的时候选择我们并一直活跃在吐司这个大家庭里。是因为你们的信任和陪伴,才不断推动着我们,激励着我们越来越好。在城市分布方面,广州、上海等一线城市占比最大,相比较去年东莞、佛山、福州等二三线城市的使用人数也有大量涨幅。用户的年龄结构方面,26岁-35岁占比高达38%,年轻用户对新鲜事物充满好奇,具有较强的创新意识和表达欲望,是推动AI 生图多样化创作风格的主力军。但50+岁的用户也不遑多让,占比也是创意生图的中坚力量,他们可能在职场的间隙,抽空呼吸放松,用AI描绘出心中的诗与远方。对比去年,18-25岁用户占比也有显著提升!从今年的数据上来看,女性用户的数量同比增长5%,占比也来到了20%不论是城市、年龄还是性别,我们团队对比过往数据,能够得到一个令人惊喜的结论:AI技术正在向全民化发展。人们使用AI的壁垒在不断减少,获得AI相关信息更加便捷全面,而这也是我们希望看到的。今年,我们完成了几十次的功能更新和数百次的bug修复,我们始终把用户体验放在第一位,而产品功能更是我们的立身之本。比如,我们创造性的推出AI小工具,可以理解为一个mini版的app!对创作者而言可以把复杂的工作流包装得到更多的传播和使用;对于使用者而言不需要了解背后的复杂逻辑,一键使用。我们目前已经可以做到覆盖设计、视觉、游戏、建筑、艺术等多行业的实际应用场景解决方案。在不久的将来,更将推出全新设计师友好的灵感发散工具今年,吐司一共上线20余场站内活动,30余场站外(社群社媒)活动,更有多场直播、免费b站课程等。我们非常高兴看到越来越多的用户参与到我们的活动中来,更令我们感动的是,许多用户会认真支持每一场活动,醉梦星河、叽里呱啦、天海、剑舞清风、RelianceXL、焦糖拿铁多加奶、青旭、蔚蓝blue,还有更多更多的用户!这些昵称,我们运营团队都妥帖的记在心里。与此同时,今年我们在外部合作上有了更多拓展。在此就不一一穷举,新的一年跟我们一起探索更多可能。今年各类新基座模型百花齐放,我们一直鼎力支持并承载每一新技术的发展!毫不夸张的说,大部分基座模型我们可以做到T+0支持在线生图,T+1支持多种网络模块的在线训练。(产研:在做了!在做了!)在AI快速发展的浪潮下,我们从未放缓过技术创新的脚步。在AI井喷式发展的这两年里,放眼全球,我们的算力价格都是极低的。在用户增长和新技术成本增大的情况下,我们依旧保持原有优势,保障算力充足,并让用户能够用更低的成本体验AI。除了追逐新技术以外,还做了全面的工作流AI小工具的功能,探索各类应用场景。从产品雏形诞生那一日起,我们的初心就从未改变:让每个人都能体验到AI创作的乐趣。而“Trained Once, Thrive everywhere.”这一理念也绝不是说说而已。这句话的意思是,一旦你在我们的平台上训练了一个模型,后续的活动(如发布、运行模型、被他人纳入工作流程或AI小工具)都将持续为你产生收益。当然,我们不仅只有追新,只有探索,我们也有对陪伴我们的创作者有更多的回馈。我们期望平台创作者能够通过创作获得收益反哺。因此,我们设立了创作者中心,以帮助创作者监控他们上传作品的收益,创作者激励相比较去年涨幅523%。显卡基金、充能、订阅,我们给创作者提供了更多的收益方式,创作者人均收入增长8.15倍。我们一直将扶持国内AIGC生态为己任,除了上线功能全面的在线训练,降低训练门槛以外,也一直在探索更多有可能的收益方式使创作者得到应有的物质回报。我们希望创作者在为热爱发电的同时,能感到有更足的底气。即将上线会员模型,这么多收益方式,总有一款适合你!从2022 年底ChatGPT 引发生成式人工智能的热潮,到2024 年初Sora 模型以文生视频技术令世界瞩目,AI 技术在软件代码、文本、语音、高保真图像和交互式视频的创作上取得了显著突破,不断推动着多领域的革新。AI行业的发展绝不仅仅是靠某一公司的成功而前进,我们也在这些优秀的同行身上获得启发,并为之努力奋斗。AI是一片热忱的土地,长满关于科技与梦想的各具特色又生机勃勃的植物,我们在上面种下一颗名为吐司的种子,期待它的不断生长。年度榜单TA有自己的年度榜单,快来看看你上榜了没榜单直通车在此,死手,快点啊!👉年度榜单👈
30
吐司在线Lora模型训练参数设置含义简介

吐司在线Lora模型训练参数设置含义简介

吐司在线Lora模型训练参数设置含义简介一:主要参数的含义: 底膜:训练用的大模型训练网络模块:包含lora,dora等 触发词:触发lora效果的提示词单张重复次数(Repeat):训练一轮模型学习这张图片的次数, 训练轮数(Epoch):训练的总轮次,总学习步数= (图片数量 重复次数 epoch)/ 批次大小以UNet学习率为1e-4为例,一般来说图片较少的时候训练人物需要至少1000步,训练画风则需要至少2500步,训练概念则需要至少3000步。这里只是最低的步数,图片多则需要更多步数。学习率更大可以适当减少步数,但并非线性关系,使用两倍的学习率需要使用比之前步数的一半更多的步数。 文本编码器学习率Text Encoder learning rate:在训练过程中,用于更新文本编码器模型权重的参数。学习率是一个重要的超参数,它决定了模型在每次迭代中权重更新的幅度。 Unet 学习率Unet learning rate:学习率决定了模型在每次迭代中参数更新的幅度,过大的学习率可能导致模型无法收敛,而过小的学习率则会导致训练过程缓慢且效果不佳。 训练图像尺寸:训练集的分辨率大小 种子seed:相当于图片的身份证 Clip skip:是指在图像生成过程中控制CLIP模型使用频率的参数。CLIP模型是一种先进的神经网络,能够将输入的文本提示词转换为数值表示,并通过多层处理生成图像。Clip skip参数决定了在生成图像时CLIP模型处理的层数,从而影响图像的质量和与输入文本的匹配度。 学习率调度器:是一种在训练过程中调整学习率的方法,通常会随着训练的进展而降低学习率。这有助于模型在训练开始时当参数远离其最佳值时进行大量更新。 优化器:用于调整神经网络的权重和偏置,以最小化损失函数,从而提高模型的准确性和性能‌。优化器的目标是通过对模型参数的调整,逐步降低损失函数的值,确保每次优化都朝着最快降低损失的方向前进‌ 训练网格大小‌训练网格大小‌通常指的是在机器学习或深度学习中,用于模型训练的数据集的划分方式。具体来说,它将数据集划分为训练集、验证集和测试集。训练集用于训练模型,验证集用于调整模型参数,测试集用于评估模型的泛化能力。合理的网格大小划分可以帮助模型更好地学习和泛化,避免过拟合或欠拟合。 Alpha值:‌Alpha值‌在机器学习中通常指的是‌学习率‌,它是一个超参数,用于控制模型在每次迭代中权重更新的步长。学习率的作用是平衡模型的训练速度和稳定性。一个合适的学习率可以帮助模型快速收敛到最优解,而过高或过低的学习率都可能导致训练效果不佳。通常,学习率被设置为一个较小的值,以便模型在训练过程中能够缓慢地探索和学习,避免出现不稳定的情况‌ 噪声偏移:在训练过程中加入全局的噪声,增加生成图像的动态范围(黑的更黑,白的更白)。当不需要生成这类极亮或者极暗的图像时推荐关闭。如果需要开启,推荐设置值为0.1,同时需要增加学习步数作为网络收敛更慢的补偿。 多分辨率噪声袁减率Multires noise discount和多分辨率噪声迭代次数Multires noise iterations:多分辨率噪声减少(Multires Noise Discount)是一种算法,它通过迭代处理来减少图像噪声。这种方法通常用于图像的去噪过程。多分辨率指的是从高分辨率开始处理,逐渐降低分辨率,直到达到某个停止条件。在每次迭代中,处理过程可能包括滤波、图像重建或其他噪声减少技术。多分辨率噪声迭代次数(Multires Noise Iterations)则指的是在满足某些条件之前,需要执行多少次迭代。 卷积层维度conv dim和卷积层Alpha 值conv alpha:卷积层的维度(conv dim)‌是指卷积操作处理的数据的维度。在深度学习中,卷积层主要有三种类型:Conv1d、Conv2d和Conv3d,它们分别处理一维、二维和三维数据。卷积层中的学习率调整或权重初始化相关的参数。‌在卷积神经网络(CNN)中,卷积层是核心组成部分,主要用于特征提取。    
57
4
新手小白向——吐司模型炼制小攻略

新手小白向——吐司模型炼制小攻略

新手小白向——吐司模型炼制小攻略 首先:打开吐司官网(https://tusiart.com/)进入模型训练界面:   第二步:上传训练数据集,最好是准备好事先裁剪好的素材(素材分辨率最好是64的倍数),上传然后打标;打标方式:Flux的模型训练推荐使用自然语言英文打标;其他sd1.0或者1.5的底膜使用wd1.4的打标模型打标即可;  真人模型推荐用自然语言,二次元推荐用wd1.4; 第三步:主要参数设置:单张重复次数(Repeat)代表训练一轮模型学习这张图片的次数,训练轮数(Epoch)代表,训练的总轮次,一般(Repeat)乘以(Epoch)达到100以上就有一个比较好的模型训练成果。两者相乘再乘以上传数据集的图片数量就等于总训练步数。接下来要设置的是:文本编码器学习率Text Encoder learning rate以F1的底膜为例,一般设置为:2e-6Unet 学习率Unet learning rate以F1的底膜为例,一般设置为:5e-4或者直接采用系统推荐的学习率参数    学习调度器选择:  优化器选择:  训练网格大小和alpha值设置:这两者决定了你训练出来的模型的文件大小,以F1的底膜为例,一般数据集比较小时设置成16-8,或者是32-16就可以,前者保持在后者的2倍,数值设置越大训练的速度越慢,相对来说学习深度越高。 最后设置样图的大小和样图提示词:噪声偏移及其他几种高级参数对F1的lora训练影响不大,保持默认值或者改成0都可。  别忘了添加你的触发词:使用批量加标签加入触发词  第三步:点击立即训练:完成你的lora训练吧! 第四步:训练完成后选择符合你要求的模型,吐司可以保存十个不同轮次的模型,从中挑选出你喜欢的。 通过查看loss值看模型的拟合程度: 
60
21
AI绘画提示词及生成技巧

AI绘画提示词及生成技巧

一、AI绘画prompt词(一)人物相关外貌特征描述对于人物的外貌,详细的描述可以让AI生成更符合预期的图像。例如“a girl with long curly blonde hair, big blue eyes, and a small nose”(一个有着长长的金色卷发、蓝色大眼睛和小鼻子的女孩)。如果想要特定风格的外貌,可以加上风格形容词,像“a girl with anime - style big eyes and long purple hair”(一个有着动漫风格大眼睛和长长的紫色头发的女孩)。描述面部表情也很重要,如“a smiling boy with dimples”(一个带着酒窝微笑的男孩)。另外,还可以提及身材特征,“a tall and slender woman wearing a red dress”(一个穿着红色裙子的高挑苗条的女人)。身份与穿着明确人物的身份有助于构建画面,比如“a police officer in uniform, with a badge on his chest”(一个穿着制服、胸前戴着徽章的警察)。对于穿着,可以详细到衣服的款式、颜色和材质,“a young girl wearing a white lace dress and black leather boots”(一个穿着白色蕾丝裙和黑色皮靴的年轻女孩)。配饰也是丰富画面的元素,“a man with a black hat, a silver watch on his wrist, and a leather belt”(一个戴着黑色帽子、手腕上戴着银色手表并且系着皮带的男人)。动作与姿态描述人物的动作可以使画面更生动,“a dancer in mid - leap, with her arms outstretched”(一个正在跳跃、双臂伸展的舞者)。或者是静态的姿态,“a man sitting on a bench, reading a book”(一个坐在长椅上看书的男人)。(二)场景相关自然场景在描述自然场景时,可以提及各种元素。比如“a forest with tall trees, green moss on the ground, and a small stream running through it”(一片有着高大树木、地上长满绿色苔藓并且有一条小溪穿过的森林)。天气状况也能影响场景氛围,“a sunny beach with white sand, blue waves, and seagulls flying overhead”(一个有着白色沙滩、蓝色海浪并且海鸥在头顶飞翔的阳光海滩)或者“a misty mountain covered with pine trees”(一座被松树覆盖的雾蒙蒙的山)。建筑场景对于建筑,可以描述建筑的风格、颜色和功能等。例如“an old Gothic cathedral with stained glass windows and flying buttresses”(一座有着彩色玻璃窗和飞扶壁的古老哥特式大教堂)。建筑内部场景也可描述,“a cozy living room with a fireplace, a soft colored sofa, and a bookshelf filled with books”(一个有着壁炉、浅色沙发和摆满书的书架的舒适客厅)。(三)风格相关艺术风格从传统艺术风格来看,“a painting in the style of Van Gogh, with bold brushstrokes and vivid colors”(一幅有着梵高风格、笔触大胆且色彩鲜艳的画)。现代艺术风格如“a digital art in the style of cyberpunk, with neon lights and high ”(一幅有着赛博朋克风格、带有霓虹灯和高科技元素的数字艺术作品)。绘画类型风格如果想要特定绘画类型的风格,可以说“a watercolor painting of a flower garden”(一幅花园的水彩画)或者“an oil painting of a still life”(一幅静物油画)。(四)画面质量相关像“high quality, detailed, and realistic”(高质量、细节丰富且逼真)或者“masterpiece, best quality”(杰作、最佳质量)这样的词可以让AI知道要生成高质量的图像。二、AI绘画优质prompt词和参数实例(一)实例一Prompt词“A beautiful princess in a long white dress, with a golden crown on her head, standing in a magical garden full of colorful flowers and a small fountain. The painting is in the style of watercolor, high quality and detailed.”(一位穿着白色长裙的美丽公主,头上戴着金色王冠,站在一个满是五颜六色花朵和小喷泉的魔法花园里。这幅画是水彩画风格,高质量且细节丰富。)(二)实例二Prompt词“A young man in a leather jacket, riding a motorcycle on a desert road at sunset. The scene is in a realistic style, with detailed textures of the motorcycle and the desert sand.”(一个穿着皮夹克的年轻人在日落时骑着摩托车行驶在沙漠公路上。场景是写实风格,摩托车和沙漠沙子有详细的纹理。)四、不同风格AI绘画的prompt词与参数(一)写实风格Prompt词对于写实风格,要注重细节和真实感的描述。例如“An old man sitting on a wooden chair in a dimly lit room. His face is wrinkled, and he is wearing a worn out sweater. There is a small table beside him with a half -empty glass of water. The scene is highly detailed and photo realistic.”(一个老人坐在光线昏暗的房间里的木椅上。他的脸上有皱纹,穿着一件破旧的毛衣。他旁边有一张小桌子,上面有半杯水。这个场景细节非常丰富且像照片一样逼真。)(二)动漫风格Prompt词“A cute anime girl with long pink hair, big purple eyes, and a school uniform. She is standing in a cherry blossom garden, with petals falling around her. The style is anime like, with bright colors and simple lines.”(一个可爱的动漫女孩,有着长长的粉色头发、大大的紫色眼睛,穿着校服。她站在樱花花园里,花瓣在她周围飘落。风格是动漫式的,有着明亮的色彩和简单的线条。)(三)抽象风格Prompt词“A composition of geometric shapes in bright colors. There are triangles, circles, and rectangles overlapping each other, creating a sense of movement and energy. The painting is in an abstract style, with a sense of depth and texture.”(由明亮颜色的几何形状组成的构图。有三角形、圆形和矩形相互重叠,创造出一种运动和活力的感觉。这幅画是抽象风格,有深度和质感。)五、提高AI绘画效果的prompt词和参数技巧(一)明确描述主体和细节主体明确在prompt词中首先要明确画面的主体是什么。如果想要画一只猫,不能只说“a cat”,而是要更详细地描述,比如“a black cat with green eyes, a white patch on its chest, and a long tail”(一只有着绿色眼睛、胸前有一块白色斑块并且长尾巴的黑猫)。这样AI就能够更准确地知道要画什么样的猫。细节补充除了主体的基本特征,补充更多的细节可以让画面更丰富。例如在描述人物时,除了外貌,还可以描述人物的情绪、动作、所处的环境等。“A sad little girl sitting on the floor, hugging her teddy bear, in a dark and empty room”(一个悲伤的小女孩坐在地板上,抱着她的泰迪熊,在一个黑暗空旷的房间里)。(二)控制画面风格直接指定风格直接在prompt词中明确指出想要的风格,如“in the style of impressionism”(印象派风格)或者“a digital art in the cyberpunk style”(赛博朋克风格的数字艺术)。这样可以避免AI生成不符合预期的风格。混合风格创造新效果尝试混合两种风格来创造独特的效果,例如“a painting that combines the style of traditional Chinese painting and surrealism”(一幅结合了中国传统绘画风格和超现实主义风格的画)。不过这种情况下要注意两种风格的平衡描述,以免画面过于偏向某一种风格。(三)调整参数以适应需求尺寸与比例调整根据最终用途来调整图像的尺寸和比例。如果是用于手机壁纸,可以选择9:16的比例和适合手机屏幕分辨率的尺寸。如果是用于电脑桌面壁纸,16:9或者16:10的比例可能更合适。在生成之前要考虑好这些因素,选择合适的参数
33
3
土司LoRA模型训练个人经验总结

土司LoRA模型训练个人经验总结

土司LoRA模型训练个人经验总结对于新手炼丹师来说,看到喜欢的图和风格就想自己练个模型来用,那么就用到LORA训练了!首先明确自己需要训练什么类型的LoRA,看你喜欢的是什么:看到一张美图,你到底喜欢的是哪些,想练的就朝喜欢的方向去。粗略分成:人物角色、画风/风格、概念、服饰、物体/特定元素(光、暗、火冰,色系等)etc。其次是收集素材。按照你喜欢的元素去收集,对照上面的喜欢的分类去收集素材,不是越多越好,一般建议20张左右即可。素材要求:高清,不同角度,不同背景,不同姿势,不同服饰,清晰无遮挡的图片,关键是高清!!!所以炼实物的请找这个物件自己拍照最好。第三步是处理素材,当然主要靠PS啦。不会PS就剪裁吧!清理不喜欢的东西,保留需要的高清部分。模糊、文字等不建议放入。第四步生成/优化标签(可选),土司网站上传后就自动打标签,所以不再多说,用工具即可(建议保留个txt文件,方便校验核对LORA效果)。你要自己打标签的就是同图片,同TXT文件包成.ZIP 文件上传即可,如FLUX、SD3.5用自然语言描述的就要打包。第五步触发词:选个个性化的英文词(要翻译器不认识的!!!),将触发词添加进每个图的标签里(见下图)。第六步选择训练LoRA使用的大模型:目前有SD1、SDXL、PONY、FLUX、SD3.5(这里的算力价格由低到高),其他如(混元、可图等),可选中间出样图(魔法词汇,请参考前面某个图的标签),没有也无所谓的,这里就略过了。第七步开始训练,在网站上炼就是消耗算力,高低扣除后,就是排队等候训练,让后训练中看看进度条,看看中间的样图...这个时间会比较久,慢慢等待就好。(一般扔进去,等一个晚上就好了)第八步,当然收获一堆炼丹结果,开始测试模型啦!从训练好的LoRA模型队列中,找出最后一个文件下载,当然(中间的也可以),本地SD/ComfyUI放到文件夹(sd-webui-aki/models/lora)中,刷新后就可以在SD中看到你训练的那个模型,FLUX/SD3.5就要先上传发布,可以先发个私用,再生图。按照自己图的TXT的标签,对好炼丹底模,通过不同权重去核对LORA效果,是不是很像??!!----------------以下经验:SD1的比较像,图形模糊(对应好底模出图)SDXL:找对底模,基本很像,清晰度一般PONY:NSFW利器,就是比较模糊,皮肤是3D硅胶的,没法看汗毛、毛孔的那种FLUX:高清但是不像,除非用F1.dev-F16的,才有点像。太耗显存了,网站都只用F8的,所以不像,经常输出2D图,累~SD3.5:风格比较像,清晰度也可以,无法NSFW
40
6
📖 小工具教程-让你从此写真自由!

📖 小工具教程-让你从此写真自由!

🔥 [ Flux.1 ] 个人写真自由!!!1️⃣ 上传照片2️⃣ 设置参数3️⃣ 等待生成4️⃣ 崭新的个人写真就出炉啦~
9
1

圣诞攻略CogVideo 图生视频工作流

可在线CogVideo 图生视频工作流 (12-8号任务可用)可直接平台运行,无报错,无缺失节点,工作流可直接用大家只需要加载图片改下关键词生成视频就可以发布小工具了工作流地址:deo图生视频吐司在线工作流| ComfyUI Workflow | Tensor.Arthttps://tusiart.work/workflows/804830859302650737记得发布AI小工具哦,发布加圣诞攻略标签
13

【圣诞攻略】12-8日视频工作流攻略及小工具发布流程

有多少今天这个视频工作流懵逼的,我今天研究一天社群探讨和大佬交流制作和上传很好了工作流,、大家只需要改下关键词生成视频就可以发布小工具了★:注意:发布加圣诞攻略标签点我头像或者下面链接进入https://tusiart.work/workflows/804829201445272567相关平台技术大佬解答贴:https://tusiart.com/articles/804148483494963333
13

关于圣诞攻略AI视频小工具开发的一点心得(不太成熟,抛砖引玉,各位见谅)

#圣诞攻略#工作流#AI小工具从这次活动的教程来看,有Cogvideo、Mochi、Pyramid-Flow三种节点可以选择,对我来说,这些都没用过,工作流目前对我来说是停留在用的阶段,在对工作流进行优化上能力欠缺。所以,我找到了这几个视频节点的例子拿来用,再慢慢调整成我想要的效果。这里选择Mochi进行说明,这个对我来说比较简单。通常你导入了json文件后,结合各个平台的情况,并不一定能够直接使用,所以就需要对他进行调整了。一开始直接起步运行工作流就好,然后根据报错信息慢慢排除问题就好,问题不一定很复杂,但是需要结合具体情况来看,有些问题百度就能找到答案,有的可以去找专业的人问一下,而且不必过于纠结,玩不转的就先放放,去找一些可以替代的方式,实在不行就放弃,如果想很系统性的了解的话,可以在B站找专业的知识学习,我这里谈的只是速成使用的方法,就好像训练有素的程序员和面对百度的程序员,我就菜鸟一个,说的不好的地方还请多多担待。最开始什么也没改的时候,遇到的就是这个报错,属于是第零版了,结合信息来看,就是UNETLoader这个出问题了,对应的节点就是UNET加载器,问题在于UNET名称也就是unet_name这个值不合法,不在所允许的值的范围之中,我们展开这个UNET名称菜单来看根据这个下拉菜单,json文件中原本的值是mochi_preview_bf16.safetensors,gentamicin相近的只有三个值,最接近的只有mochi/mochi_preview_vae_bf16.safetensors,我们先选这个试试,再次运行,还是失败,出现弹窗点击showReport查看,问题还是在这个加载器那里,点击findIssues查看有没有人遇到一样的问题有一个类似的方案,我们可以进去看看,略过信息过滤,我们直接看最后面的回答:It seems that you are using invalid model.Why did you download that model file?由此可见,当前模型无效,我们要换一个模型试试了,这次我们选上面这个试试这次没有很快报错,我们可以期待一下,不过速度不太快,耐心等一会儿,进度条可能会卡在某个点上,不用急,耐心等,只要没报错就说明还没问题,你也可以点击旁边的刷新按钮,虽然好像没什么用,先干点别的,一会再回来这次失败了,不过没报错,不要慌,这是正常情况,让我们再跑一次,运气不错,这次成功了,推测上一次失败应该是服务器和显卡压力导致失败,暂且不提,到这里就是成功在吐司跑起来了,后面就是看情况改改了。当下保存的是webp格式,在吐司展示的效果不佳,我们可以考虑修改一下保存格式,比如mp4,找到视频节点帧率保持一致,改成24,格式选择mp4,先选video/h264-mp4,实在太慢(跑了大概十分钟),忍不了了,我选择改成video/nvenc_h264-mp4,效果不太明显,不过我已经尽力了,就这样吧,辛苦大家看到这里了看看效果吧保存成mp4比webp要好,可以更好看到效果开始发布设置好参数,填写信息,选好展示图就可以发布了
16
2
在线FLUX出图 到本地修图放大全流程讲解

在线FLUX出图 到本地修图放大全流程讲解

16
8
个人所有模型说明

个人所有模型说明

提前说明:Anything系列模型现已全部使用FairAIPublicLicense1.0-SD进行开源。本人的任何模型及衍生模型,禁止转载LiblibAI&ShakkerAI。若不同意此条内容,请立即删除您存储设备内本人的任何模型以及衍生模型。许可协议:本人所有模型(除特殊说明/继承原模型许可证之外)全部使用FairAIPublicLicense1.0-SD开源,关键点:修改共享:如果您修改模型,您必须共享您的更改和原始许可证(任何衍生模型必须同样使用FairAIPublicLicense1.0-SD开源)。源代码可访问性:如果您的修改版本是网络可访问的,请至少提供一种方法(如下载链接)让其他人获得源代码。这也适用于衍生模型。分发条款:任何分发都必须在本许可证或其他类似规则下进行。合规性:必须在30天内解决不合规问题,以避免许可证终止,强调透明度和遵守开源价值观。选择此许可证的原因是其中部分模型使用了此开源许可的,并且即使不存在以上内容我自己也会选择此许可证。它保护了贡献者和用户,鼓励建立一个协作的、合乎道德的开源社区。这确保了该模式不仅受益于社区投入,而且尊重开源开发自由。此外针对国内社区增加的额外注意事项:使用本人任意(除特殊说明/继承原模型许可证之外)的模型以及任何本人模型的衍生模型,制作任何可在线运行的Comfy workflow或者吐司AItools等,请至少提供一种方法让其他人能够查看或者获得此工作流,这也适用于衍生模型。免责声明:模型生成的所有图像均为用户自行生成,模型开发者无法控制用户生成图像的行为。对于可能涉及侵权或不安全的图像,模型作者将不承担任何责任。模型的使用应遵循与其他模型相同的原则,但用户必须遵守所在地区的法律法规(详见第1条,我们不对此负责)。如果用户违反规定使用模型,对我们造成负面影响,用户有责任消除这种负面影响。作者团队及本人不承担任何因非本人转载或分发模型而产生的任何后果。如果因此给我们造成损失,我们保留向转载者追究责任的权利。不建议使用:对于以下几类人群,我们不建议使用此模型,我们对此表示遗憾:无法容忍原始艺术风格/角色特征有任何偏差的人,即使是最微小的细节。面临对艺术风格/角色特征再现准确性要求极高的应用场景的人。无法接受基于Stable Diffusion算法的AI生成图像可能存在的随机性的人士。无法接受使用全自动化流程进行LoRA模型训练的的人,或者那些认为为了保持原始艺术视野的完整性,艺术风格训练必须完全通过手动操作来完成的人士。认为生成的图像内容冒犯了他们价值观的人。认为AI生图技术和自动训练技术是不尊重他们的人
10
2
来自AI纯小白的血泪史_入坑1月感受 (AI绘画生坑中摸爬滚打)

来自AI纯小白的血泪史_入坑1月感受 (AI绘画生坑中摸爬滚打)

1月总结:迷茫 啥啥啥?记不住!好难啊!头秃中....置顶:纯新手打怪路线推荐:别直接上来就挑战BOOS!想着开大!提醒:纯新手先别碰comfyui!别碰comfyui!别碰comfyui! 新手会很懵,加大你开始的学习难度! 一、【理解AI绘画】底层逻辑(打地基),赛博菩萨秋叶的30分钟扫盲教学:https://www.bilibili.com/video/BV1x8411m76H/?share_source=copy_web&vd_source=b5a4ab998d4d5ceea4b241206cd7f4b4*新手不用看懂里面的数据,了解个大概原理就可以了; 二、【尝试AI绘图】先别折腾本地部署跑AI,尝试AI网站出图,简单先上手;【线上出图】1、吐司AI(每人每天送100积分) 分享链接:https://tusiart.com/images/782796843861081022?post_id=782796843856886719&source_id=nja2oVjnnUawp_ssa3nz9Bku2、哩布哩布AI (每天300积分)https://www.liblib.art/两个平台每天都有免费积分,都有自己的界面可以都尝试尝试;网页AI学习资料:https://www.bilibili.com/video/BV1Ux421y7yd(可以看轻舟大佬的系列直播课,通俗易懂。)*一定要多看平台上别人的分享的模型、方法、***、工作流等,学习成功人的方法比自己瞎琢磨要好! 三、【进阶分支选择方向】:(目前我还在新手期,学习快的可以先走,后面记得带带我>.<)1、学习本地部署:这个看你的电脑:3090 4060TI这类显卡可以折腾,老电脑老实线上出图吧。(我就不服输用4G的AMD显卡折腾到最后还是老实线上了)2、学习图生图功能(比如换脸、换衣服、老图修复、划痕修复、磨皮等)这些都是未来可以可走商业化的。3、Comfyui:学习一段时间网页出图大概也了解很多英文是什么意思,有那些功能了,想折腾新功能或者专业化的就可以走这个路线,未来出教程、做定制化路线的可以找这方面的视频看了;4、炼丹:就说做自己的大模型、LoRA微调小模型,这个可以创作属于自己风格的风格模型,未来可以在出图网发布赚积分当分享大佬,做平台培训师;*本地部署的安装包、炼丹炉用赛博菩萨秋叶制作的:https://www.bilibili.com/opus/966959582618320965?spm_id_from=333.999.0.0置顶完成:下面是我的踩坑之路(废话篇可无视)看到这篇文章的新/老法师们,不知道你们入坑是哪年?第一脚是如何踩下去的?是看了某个文章/短视频好奇?是朋友画了一个巨好看的二次元卡通?还是觉得有更多收入? 我是后者觉得AI有潜力,学会能跟着产生收入。我是做PS的三线城市小设计师,也就会一些软件的基础操作和排版,简称套模板拖拉拽;基础太差,看专业设计师设计的图只有羡慕的命;2022年身边朋友就用AI来处理给工业零件去划痕,效果是真的好那时候也想学习,苦于当时电脑配置太低(现在也是十年前老电脑,因为PS设计配置要求不高),搭建很复杂,就放弃了。 直到24年10月,看了好多营销号宣传FLUX.1大模型XX厉害,画手XX强,又看了短视频直播好多人在分享comfyui做出的图片都好看,而且那个和蜘蛛网一样全英文的界面一看就好专业呀,我也要学习,踩坑开始。。。。 然后我就无脑的看了B站的那种comfyui的系列课程,一看两天过去了,然后我就脑子哦懂了,动手那是啥啥啥?我这是步子挎着太大,扯着蛋了,基础都没搞不懂,那就想专业的知识,越学越糊涂。后面短视频又看了很多老师直播讲课:想在想想哪是讲课呀,就是不停的说工作流,展示他们的作品,让加粉丝牌进群,然后转私域卖课:什么499、699、899这种系列课割韭菜,新手哪经得起这个诱惑啊,差点就花钱买课了。(最傻的是我纯小白发问:sd和comfyui他们区别是什么?人家压根不理我哈哈哈。) 买课前我心想不得让本地能先运行上在学习呀,要不等等,双11咬咬牙配一台好电脑也行呀,又网上营销号说FLUX:NF4 3G显卡就能运行,瞬间又懂了尝试本地部署的想法。兜兜转转又了解到有一个AI赛博菩萨秋叶大佬,她做了一个一键本地部署安装包,又折腾好几天、结果就是,我不配,老实生电脑或者线上玩吧。 不过好消息是看了秋叶大佬的视频后,也学习了一次基础扫盲,也了解线上有很多人赛博菩萨无私的为AI发展做奉献,真正的在分享知识,吐司里面的文章也有很多大佬在分享自己的教学,AI绘画学习门槛很高,对没接触过编程、AI、英语的人来说学习挺难的,每次都要翻译很多名词才知道意思,有的编程名词压根也没法翻译,所以要长时间的学习,而且AI绘画迭代升级真的很快,营销号/民间科学家(民科)视频看个热闹就好,大部分不是真的在教你知识,都是想赚流量或者想引私欲卖课的多,想要不被人带节奏就得沉下心来,把基础学会,多看别人的工作流,多练习把。 1、新手看轻舟的直播教学:https://www.bilibili.com/video/BV1Ux421y7yd*吐槽:讲的真的很细很适合新手,就是直播太、太长了,容易被弹幕带跑节奏。2、扫盲文章工具书,结合了很多、很多、多的文章,特别全面https://docs.qq.com/doc/p/230e7ada2a60d8e347d639edd5521f5e62332fe9*吐槽:专业信息术语太密集,纯新手看压力打,纯文章学渣压力大,可以先看轻舟大佬的直播教学在来看这个工具书,会事半功倍; 
32
5
MIST & MIST FXXKER Lora Trianing TEST

MIST & MIST FXXKER Lora Trianing TEST

"主不在乎" ----《三体·黑暗森林》"光锥之内就是命运"mist github url/项目地址mist fxxker本次测试所用训练数据集和成品LORA/train data&lora file in this test相关清理代码/测试图片/训练设置在本页附件内原文地址:MIST & MIST FXXKER Lora Trianing TEST | Civitai微博上看到个很有趣的项目,声称可以保护图片使其无法训练。”Mist是一项图像预处理工具,旨在保护图像的风格和内容不被最先进的AI-for-Art应用程序(如Stable Diffusion上的LoRA,SDEdit和DreamBooth功能和Scenario.gg等)模仿。通过在图像上添加水印,Mist使AI-for-Art应用程序无法识别并模仿这些图像。如果AI-for-Art应用程序尝试模仿这些经Mist处理过的图像,所输出的图像将被扰乱,且无法作为艺术作品使用。“https://weibo.com/7480644963/4979895282962181https://mist-project.github.io/下载,这个项目环境配置本身比较困难,而且刚性需求bf16(在一台2080ti设备测试,其实有一部分可以运行在fp16上,但急着测试没时间修改代码,本机有4090重新配环境太麻烦),最后还是请朋友帮忙处理了图片。本次测试所用训练集/原图/lora文件已附上,请自取。MIST & MIST FXXKER Lora Trianing TEST LORA and Dat - train_data | 吐司tusi.cn测试介绍/Introduction to testing测试图片/Testing images本次测试图片分为四组。通过爬虫获取的原图。经过mist v2在默认配置下处理的原图。mist-fxxker,使用第一阶段clean 处理[2]图片(注:该阶段处理耗时约25s/106张图@8c zen4)mist-fxxker, 使用clean+SCUNET+NAFNET 处理[2]图片(注,该阶段8s/每张图@4090)测试模型&参数/base model &parameter testing1.训练使用nai 1.5 ,7g ckpt.MD5: ac7102bfdc46c7416d9b6e18ea7d89b0SHA256:a7529df02340e5b4c3870c894c1ae84f22ea7b37fd0633e5bacfad96182280322.出图使用anything3.0MD5:2be13e503d5eee9d57d15f1688ae9894SHA256:67a115286b56c086b36e323cfef32d7e3afbe20c750c4386a238a11feb6872f73.参数因本人太久没有训练1.5lora,参考琥珀青叶推荐&经验小幅度修改。4.图片采用narugo1992 所推荐的three stage切片方法处理(小规模测试里,未经three stage处理放大特征的话,很难学习到mist v2的效果)测试流程/Testing Process通过爬虫获取booru上一定数量柚鸟夏图片通过mist v2 & mist fxxker 处理,获取剩余三组图片。把四组图片当作下载后原图,引入训练工作流,进行打标,识别,切片,处理后获取四组训练集。用这四组训练集训练产生对应lora测试lora测试结果/Results说明:结合图片观感,本人认为在15ep以后,已经基本达成了角色拟合和训练需求,正常训练时也不会超过这么多ep,因而测试基于15ep,其余lora和训练集请自取测试。总测试参数/Total test parameterDPM++ 2M Karras,40steps,512*768,cfg 7if Hires. fix:R-ESRGAN 4x+ Anime6B 10steps 0.5all neg:(worst quality, low quality:1.4), (zombie, sketch, interlocked fingers, comic) ,Trigger Words:natsu \(blue archive\)直接出图测试/Direct testing测试1:prompts:natsu \(blue archive\),1girl, halo,solo, side_ponytail, simple_background, white_background, halo, ?, ahoge, hair_ornament, juice_box, looking_at_viewer, milk_carton, drinking_straw, serafuku, blush, long_sleeves, red_neckerchief, upper_body, holding, black_sailor_collar,测试2:natsu \(blue archive\),1girl, solo, halo, pleated_skirt, black_sailor_collar, side_ponytail, milk_carton, chibi, black_skirt, puffy_long_sleeves, ahoge, white_cardigan, white_footwear, black_thighhighs, shoes, white_background, v-shaped_eyebrows, full_body, +_+, blush_stickers, standing, sparkle, two-tone_background, holding, twitter_username, :o, red_neckerchief, serafuku, pink_background, open_mouth测试3:prompts:natsu \(blue archive\),1girl, cherry_blossoms, outdoors, side_ponytail, solo, black_thighhighs, halo, drinking_straw, ahoge, tree, white_cardigan, looking_at_viewer, milk_carton, long_sleeves, pleated_skirt, day, neckerchief, open_mouth, holding, juice_box, black_sailor_collar, blush, black_skirt, serafuku, building, zettai_ryouiki小结:测试原图放在附件了,可以自行对比查看。就目前测试而言,单步骤的clean过后,即便放大后仔细查看,肉眼也很难分辨图片是否经过mistv2污染。即便不经过任何处理,mist的污染也需要放大图片同时提高显示器亮度才能发现(这是100%污染图源作为训练素材)项目地址展示结果目前暂时无法复现。直接出图后高清修复测试after Hires. fix经过上一步,下面我们只测试经过mistv2处理后训练集直出的lora在higher fix后的表现高清修复参数: R-ESRGAN 4x+ Anime6B 10steps 0.5出图后清洗只经过clean特别加测不使用three stage的结果:SD1.5 补充测试/add test论文里使用的是sd1.5底模,因此简单尝试了一下在sd1.5能否复现论文所展示的model attack性能。图片显示即便被攻击过的数据集也并没有影响到对角色特征的学习,mistv2带来的污染在使用对应lora后也能够清除。其他方面不太能确定,毕竟sd1.5模型对于二次元角色本身就是个灾难,自己看图吧。MIST & MIST FXXKER Lora Trianing TEST LORA and Dat - lora_sd1.5 | 吐司tusi.cn总结/Summary什么样情况下lora会受到mistV2的影响1.训练集没有经过常见的预处理流程2.使用了three stage方法3.mist v2处理后图片比例占绝对优势。1,2,3任何一项的缺失都会让mist V2的效果显著下降。污染了怎么办1.训练前:请使用最简单的方法清除即可,0.25s/per image。2.训练后:请以适当的负数权重合并调整loraAdjusting Mist V2 effect / Mist V2 效果调节- v1.0 | 吐司3.出图阶段: 同上,可以请谁写个小扩展?评价/Evaluationit is better than nothing.
17
2
【Stable Diffusion 潜工具书】

【Stable Diffusion 潜工具书】

Stable Diffusion 潜工具书Ver. 4.1.20240520(此副本是4.1.20240520的快照版本)——如果你想要整个世界,那我也能画给你链接(原文链接)腾讯文档:- Stable Diffusion 潜工具书(备份链接I)整合了作者制作的几个文档,部分可能缺乏更新,如没有其他情况只看这里即可- Stable Diffusion 信息并联资源库(备份链接II)不同步文档链接(很少进行更新):- 【中文文档】Stable Diffusion 潜工具书(2023/12/22) | Civitai如果您有不在此列表中的信息/文件、或者其他疑问,请看以下链接- Stable Diffusion 潜工具书·鹊桥计划为确保体验,请在阅读本文档时关闭TUSI网站的深色模式本文档约63000字,文档本体浏览一遍时间约30min,文档总阅读时间约145小时。警告1. Ckpts/hypernetworks/embeddings等模型有一定的可能性被混入恶意代码,所以请谨慎使用.ckpt/.pt为扩展名的模型。请及时拉黑让你开启允许加载不安全模型这个选项的人。2. 在本地部署使用过程中请时刻关注你得GPU/硬盘等硬件状态,并在必要的时候强行停止AI生成以防止您的GPU/其他设备损坏。3. Stable diffusion没有付费知识,所有所谓付费知识/教程的人均为使用开源内容打信息差,所有变现\行业案例均为学习完基础内容就可以自行操作。开源内容请不要对此进行付费。声明1.  如果本文档外链的内容中有不合适的内容,与本文档无关。如发现请及时通知文档作者删除不合适的链接。2.  转载、引用或直接复制本文档内的内容需要注明链接:文档主链接:Stable Diffusion 潜工具书3.  文档基于公开材料和经验编写,不对内容准确性负责(但作者会尽力确保内容的准确性和排除民科/错误内容),如文档有错误内容,请联系本文档作者。4.  另外因您的数据的产生、收集、处理、使用等任何相关事项存在违反法律法规等情况而造成的全部结果及责任均由您自行承担。文档使用GFDL 许可,如果您需要在您自己的著作/文章/网站或其他出版物中使用本文档的材料,您必须遵守GFDL。如果您创建了一个修改或添加了内容的派生版本,它将继承以下条款:您的作品也必须以GFDL 的形式发布您必须注明文章的作者您必须提供取得材料“透明版本”的方法文档具体协议参考FDL,以仓库副本为准。Copyright (C) 2023 StableDiffusion潜工具书Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.3 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled "GNU Free Documentation License".作者Stable Diffusion 潜工具书2023/06/30作者:Yuno779(作者)QID:YYIMISE(九月Centaki)Discord:Yimis7777邮箱:AsiaAnyN@outlook.comCivitai:Yuno779 Creator Profile | CivitaiX:𝙔𝙪𝙧𝙞𝙠𝙪 (@ElysiaAnyN) / X (twitter.com)===DeepGHS===- deepghs (DeepGHS) (huggingface.co)- DeepGHS (github.com)===元素法典===- 元素法典制作委员会_哔哩哔哩_bilibili===秋叶甜品店===- 【秋葉的甜品店】(频道):https://pd.qq.com/s/edfqp0lcy- 秋葉aaaki的个人空间-秋葉aaaki个人主页-哔哩哔哩视频前置内容| SD是什么?这本书又是什么?a. 前言Stable Diffusion (稳定扩散) 是一个扩散模型,2022年8月由德国CompVis协同Stability AI和Runway发表论文,并且推出相关程序自此拉开SD绘画的序幕。后来NovelAI(下称nai)在二次元文生图(T2I)领域破圈,并且在模型泄露之后进一步破圈。为了整合nai破圈后的各路信息,nai贴吧组创建了「nai信息并联计划」,但是后续由于缺乏跟新「并联计划」逐步失效。在「并联计划」失效之后,缺乏一个能够集合SD相关知识的文档供大家参考。本文档的目的正在于此,用于弥补并联计划这个空缺。- NovelAI信息并联计划原址:https://kdocs.cn/l/cre0TwbMkdx3潜工具书是一个包含有任何可能有用的链接的一个信息存储库。如果你是新人,那么非常推荐你从头查看本文档本文档仅为中文整理的合集。其中部分链接文档/内容无对应中文版,考虑到部分为专业性文档,需要有很强的英语能力/熟练使用GPT等工具才能正常阅读。固请不要以此问题询问他人,如有需要请自行寻找GPT等工具使用教程。b. 前置内容● 信息在国内,想要正经的接触AI绘画相关的内容是非常困难的,往往需要克服信息阻断链,这个文档在很多地方并不受欢迎(你说是吧,某个L开头的模型网站),因为文档挡住了很多人想要卖课赚钱的路子。当然你既然看到了这个文档,相信你你已经解决了信息阻断的问题。当然如果你感兴趣想要知道正确入坑AI绘画有多难的可以查看这个文档:想要接触到正经AI绘画到底有多难● AI本地部署硬件需求说明:最低推荐配置的意思是配置低于这个就完全不建议入坑AI绘画了,如果强行想要使用,有些也是没问题的,但是还是建议硬件水平低于最低推荐配置时更换为更为强劲的硬件。当然使用云端部署也是没问题的(纯新人建议使用windows server)显卡VRAM在4GB以下的会很容易遇到显存不足的问题,即使使用放大插件也就非常慢(以时间换显存)显卡较差/显存严重不足时可以开启CPU模式,但是速度非常慢。你不希望一个小时一张图的话那就别想着用CPU跑图。● 软件需求Linux:用Linux当主力系统的还用我教?Windows:最低要求为Windows 10 64比特,请确保系统已更新至最新版本。windows7就不要想了,建议直接升级到win10/win11macOS:最低要求为macOS Monterey (12.5),如果可以的话请使用最新版macOS。建议使用搭载Apple Silicon M芯片(M1、M2) 的Mac机型。旧款Mac需配备AMD独立显卡,只有Intel核显的不能使用。正文内容①https://tusi.cn/articles/730154185623963570②https://tusi.cn/articles/730157424029312247③https://tusi.cn/articles/730162358946747397④https://tusi.cn/articles/730213739640645910Q & A● VAE是什么,出图发灰怎么办:VAE 是一种神经网络,可将标准的RGB 图像和潜空间表征互相转换。潜空间表征是Stable Diffusion 在采样过程中的实际操作对象。(即进度条处于"空" 和"满" 之间的状态)。 对于文生图,VAE 仅用于在采样完成后创建RGB 图像。 对于图生图,VAE 用于在采样前把用户输入的图像处理为潜空间表征,并在采样后创建RGB 图像。说人话:简单的说就是把AI输出翻译成人能看到的图片出图发灰是因为模型内的VAE存在问题,可以将模型内的VAE更换为其他适合的VAE,在SD-Webui中直接更换“外置”VAE即可● 安装报错打不开怎么办:如果你是秋叶整合包,那么可以查看此文档:【必读】萌新基础常识(wa9.cn)讨论以下插件你可能不会得到除卸载以外的任何答案:Dreambooth、a1111-sd-webui-locon/lycoris、Deforum、TemporalKit、Kohya-ss Additional Networks如果不是使用整合包,且出现问题无法自行解决,那么请看这里并使用整合包:SD WebUI秋叶整合包与SD Webui绘世启动器- 【AI绘画·11月最新】Stable Diffusion整合包v4.4发布!- 【AI绘画】绘世启动器正式发布!!● 说了一番也不推荐模型……?这里除了我自己夹带本人制作的私货模型以外不会推荐任何其他模型,在看完一些文章之后你理应能够自行分辨模型的质量,如果不能那就再去看一遍文章的内容,如果还不能分辨,这边建议先上学再上网。当然你不想看文档,那也不怪你,只是你不适合学习SD相关的东西,我建议你立刻关闭文档并卸载你的AI软件。● 有一些东西没有加入这里:部分文档含有非常多的错误内容,为了确保新人不会获得错误的消息,我将其剔除文档。另外为了防止一些潜在的风险和其他问题有些其他的文档也不会放到这里。如果有其他需要加入本文档的内容,请查看此链接:- Stable Diffusion 潜工具书·鹊桥计划NovelAI信息并联计划失效的原因之二就是民科内容多和大家无法自发的将新内容放到并联计划上,所以潜工具书将不会采用并联计划的模式来避免这种情况的发生。● 模型奇怪的大小?一般而言奇怪大小的模型都会或多或少的含有一些垃圾数据或无效精度。模型融合经常会出现很多webui在跑图过程中实际用不上的junk data,模型里只有固定的那些内容才能够被加载,多出的全是垃圾数据。很多的融合模型都带有这么一堆的垃圾数据,并且很多人总是认为这些junk data删掉会影响模型本身而不去删除。其中影响最大的是模型EMA:模型在Merge后EMA将不再准确反映UNET,这种情况下EMA不止没啥用,还会影响模型的训练。另外默认情况下,webui 会将所有加载的模型转换为FP16使用。所以很多时候更高的精度也是没啥意义的。旧版本SuperMerge插件也会整出来一些float64的weight造成大小异常。这些都会浪费磁盘空间。● 有什么新的东西?详情查看3.c推荐的几个b站UP的动态或者视频,一般而言更新都是比较快的● 为什么经常看到批评某些东西的内容首先,暴躁程序员天天因为技术上的原因喷人是很常见的一件事,有些人或者事虽然经常因为技术上的问题吵来吵去,但是私底下却并没有这么水火不容。另外就是,一部分比较差的模型或者一些其他东西,有很多人出于比如面子或者是社交上的考量,而不去批评别人的东西。别人出了个模型或者别的就一直要被追着说好,只能夸,不能批评。这不是个好现象,虚伪的称赞对谁都不好。这里不是绘圈或AI模型圈,不好的东西受到批评是应该的,而且这对于被批评的事物也是有利的。● 说半天也不推荐模型也不解决问题这个文档的大部分内容是让你知道为什么,而不是怎么做。全都看完且理解了里面的内容,你自然就会自己分辨模型、自己炼模型,那些所谓的“应用向工作流”自然而然的就可以手到拈来。● 堆友的教程相关内容:完全不建议看堆友上的任何教程,因为新人完全没有对于这些知识是否正确的分辨能力,而堆友上的教程普遍都有一些错误的内容,或者是只根据现象就总结结论的“民科理论”,这会对新人理论体系的构建产生非常差的影响。私货环节| 模型推荐● kohakuXL EKohaku XL E是Kohaku XL系列最新版本,使用LyCORIS微调,在消费级硬件上训练,并且完全开源。使用前请看模型卡,为确保效果请使用模型卡的格式。- (3) Kohaku-XL Epsilon - rev1 | 吐司tusi.cn● animagine xl 3.1Animagine XL 3.1是Animagine XL V3系列的一个更新,增强了之前的版本Animagine XL 3.0。Animagine XL 3.1建立在Stable Diffusion XL的基础上,旨在通过制作准确而详细的动画角色表示,成为动漫迷、艺术家和内容创作者的宝贵资源。- (21) Animagine XL - V3 | Tensor.Art- cagliostrolab/animagine-xl-3.1 · Hugging Face- Animagine XL V3.1 - v3.1 | Stable Diffusion Checkpoint | Civitai● AnythingXL- (1) 万象熔炉XL | AnythingXL - beta4 | 吐司TusiArt.com- 万象熔炉| Anything XL - XL | Stable Diffusion Checkpoint | Civitai拒绝民科请勿只根据现象就去“定义”某些理论a. 相关问题原因&说明民科/错误理论提出的原因常见的无非有三种。定义:只通过现象就去“定义”一些事物,并且将其当作理论来使用传播,很多种情况下这些提出的理论都只是巧合或者适用范围相当有限的东西。例如:GhostInShell的一些理论/VAE相关的内容就属于此。似乎:很多内容是我们心理上感觉其效果的,但是实际上并没有这一回事,并且完全不起作用。但是仍然有人将其作为理论拿出来使用。例如:当初法典组融合研究的一些东西就属于此。掩饰:有些过于离谱的内容纯属是为了掩盖自己啥都不懂论文没看文档没读……的,但是由于提出这些东西的人往往有很高的流量,就会影响相当多的人,甚至一部分新人小白听取了“业界大佬”的发言,就认为确实是这样的。例如:墨幽的HIFI级大模型就是属于此的另外AI绘画使用的超低门槛与实际研究群体的超高门槛之间存在着非常严重的断层,这就意味着玄学民科的内容很多人是完全没有办法分辨的,这会导致很多人有意无意的也成为一些错误理论的传播者。- 模型结构科普第一辑- 模型理论科普第二辑这个系列文档科普了一些模型结构的内容,然而还有更多的玄学民科内容还在等着我们去根除谬误,当然这个文档也有可能会有错误内容,有问题也请直接指出。b. SD社区现状SD目前并没有专门的交流社区/或者说即使有交流社区那么环境也是比较差的(例如猫鼠队),而一般的网站又过于简单零碎,各自为阵的群聊也有一部分人在输出玄学民科内容,并且还有相当的一部分人进行吹捧。而刚接触的新人也没啥分辨能力,再加上一部分国内网站不干人事的追求流量的和听信民科内容行为(曾有群友在某网站引用论文和其官方说明文档的内容指出错误的信息,但是该网站以“我的观点”与主流观点不同为由拒绝,且后续还有其他过分的行为)以及一些流量UP为了流量胡乱推荐、随意拉踩,自然然的会出现,玩了几个月发现自己玩的都是垃圾,或者自己也加入输出这种民科内容等等情况。c. 举例说明相关举例: “采样器影响提示词准确性” “LoRA训练dim无脑开128最好” “训练时长和模型质量是直接相关的” “训练集图片越大质量越好” ……以上这些都是已经证伪的民科理论,相关的东西还有很多。● 墨幽(HIFI级ai绘图模型):- 【AI绘画】模型修剪教程:8G模型顶级精细?全是垃圾!嘲笑他人命运,尊重他人命运- 哔哩哔哩(bilibili.com)(图片MoYou为错误结论)● 模型VAE:- 【AI绘画】不是每个模型都需要外挂VAE! VAE真正的作用是什么? - 哔哩哔哩(bilibili.com)● GhostMixGhostshell相关的理论和勘误:- GhostInShell你还想骗人多久?当然其他的东西也是有非常多的,只是没有有流量的人说明我提出了必定被喷,为了避免麻烦也是因为Happy Lazy就懒得说了,有兴趣自己去看论文或者其他作者的讲解文档。
73
6
本地SD出图 到吐司线上全流程讲解

本地SD出图 到吐司线上全流程讲解

150
26
Stable Diffusion WebUI 从入门到卸载②

Stable Diffusion WebUI 从入门到卸载②

受限于字数限制:前置内容Stable Diffusion WebUI 从入门到卸载| 吐司tusi.cn模型训练的问题部分模型训练的时候出现的问题也会导致提示词出现不听话的情况。许多tag 有着逻辑上合理的“前置”关系,比如存在sword 这个tag 的作品往往还存在weapon 这个tag、存在sleeves past finger 这个tag 的作品往往还存在sleeve past wrists 这个tag。这样在训练集中往往共存且有强关联的tag,最终会让模型处理包含它的咒语时产生一层联想关系。不过上述联想关系似乎不够令人感兴趣,毕竟这些联想的双方都是同一类型,哪怕sword 联想了weapon 也只是无伤大雅。那么是否存在不同类型的联想呢?答案是存在的:masterpiece, 1 girl, blue eyes, white hair, white dress, dynamic, full body, simple backgroundmasterpiece, 1 girl, blue eyes, white hair, white dress, (flat chest), dynamic, full body, simple background不难发现flat chest 除了影响人物的胸部大小之外还影响了人物的头身比,让人物的身高看上去如同儿童身高一般,如果调整画布为长画布还会更明显。因此称flat chest 与child 有着联想关系。人物胸部大小和身高是不同的两个类型,两个看似类型完全不同的词也可以产生联想关系。对flat chest 加大权重,会让这种联想关系会表现地更为突出。它的原理和上述同类型的联想一样,都是训练来源导致的。平胸美少女和儿童身高在同一个作品内出现的概率非常大,模型训练的时候不做好区分就会混在一起产生联想关系。这种联想关系在社区中曾被称为“零级污染”。这种现象在不同的模型中的表现是不同且普遍存在的:例如:在cf3模型中,出现了又rain的情况下一定会存在雨伞的关联现象。rain和unbrella产生了联想关系。9. 如何使用LoRA①首先,把你的LoRA模型放到指定文件夹(你的webui根目录\models\Lora)里面文件夹和我的不一样没关系,只要把模型放到这里就行了。如果下载了太多的LoRA模型不好找,那么就可以像我一样加入文件夹分类②按照图片提示,依次点击LoRA列表按钮——想要使用的LoRA,在正面提示词栏里出现<lora:colorloss-000020:1>这种格式的提示词即为下一次生成所要加载的LoRA。③如果你使用安装了Kitchen主题或者用了kitchen主题套壳的整合包,那么你的LoRA在这里10.  画大大大大大大的图Tiled VAE扩展插件: pkuliyi2015/multidiffusion-upscaler-for-automatic1111Tiled VAE能让你几乎无成本的降低显存使用● 您可能不再需要--lowvram 或--medvram。● 以highres.fix 为例,如果您之前只能进行1.5 倍的放大,则现在可以使用2.0 倍的放大。使用方法:勾选红框所示的勾选框以启动Tiled VAE在第一次使用时,脚本会为您推荐设置。因此,通常情况下,您不需要更改默认参数。只有在以下情况下才需要更改参数:当生成之前或之后看到CUDA内存不足错误时,请降低tile 大小当您使用的tile 太小且图片变得灰暗和不清晰时,请启用编码器颜色修复。stableSR扩展插件:pkuliyi2015/sd-webui-stablesr: StableSR for Stable Diffusion WebUI功能:更强大的图片放大扩展详细用法请看以下链接:sd-webui-stablesr/README_CN.md at master · pkuliyi2015/sd-webui-stablesr · GitHub11.  元素同典:真正的parameters魔法入门提示词入门教程·上篇:《元素同典:确实不完全科学的魔导书》我们保留了一点点Junk Data:请选择你的模型1.  Stable Diffusion的工作原理①首先我们输入的提示词(prompt)会首先进入TE(TextEncoder),而clip就是stable diffusion所使用的TE。TE这部分的作用就是把tag转化成U-net网络能理解的embedding形式,当然了,我们平时用的emb模型,就是一种自然语言很难表达的promot。(简单的说就是将“人话”转换成AI能够理解的语言)②将“人话”转换成AI能够理解的语言之后,U-net会对随机种子生成的噪声图进行引导,来指导去噪的方向,找出需要改变的地方并给出改变的数据。我们之前所设置的steps数值就是去噪的次数,所选择的采样器、CFG等参数也是在这个阶段起作用的。(简单的说就是U-net死盯着乱码图片,看他像什么,并给出更改的建议,使得图像更加想这个东西)③一张图片中包含的信息是非常多的,直接计算会消耗巨量的资源,所以从一开始上面的这些计算都是在一个比较小的潜空间进行的。而在潜空间的数据并不是人能够正常看到的图片。这个时候就需要VAE用来将潜空间“翻译”成人能够正常看到的图片的(简单的说就是把AI输出翻译成人能看到的图片)经过以上三个步骤,就实现了“提示词→图片”的转化,也就是AI画出了我们想要的图片。这三个步骤也就对应了模型的三个组成部分:clip、unet、VAE2. 好模型在哪里?同时满足:提示词准确、少乱加细节、生成图好看、模型本身没有问题的模型,我们就能称之为好模型。提示词准确:顾名思义,就是tag提示词的辨别能力越高越好。提示词辨别能力差,那么我们就难以达到想要的效果。少乱加细节:指的是产生提示词中并不包含的细节,并且我无法通过提示词来消除这些不相干的细节,这会影响提示词对于生成图的控制能力。生成图好看:这没什么好说的,生成图无论如何都是炸的话,那这个模型也就没有存在的必要了。模型本身没有问题:一般而言是指不含有Junk data和VAE没有问题的模型3. 讨厌的junk datajunk data就是指垃圾数据,这些数据除了占用宝贵的硬盘空间外毫无作用。一个模型里只有固定的那些内容才能够被加载,多出的全是垃圾数据。一般而言一个7Gb的SD1.5模型,实际生成图片所用到的只有3.98Gb。模型并不是越大越好这些东西大部分都是EMA,模型在Merge后EMA将不再准确反映UNET,这种情况下EMA不止没啥用,还会影响模型的训练。所以在尝试融合模型时期,请先使用工具删除模型EMA权重(后面讲模型融合的时候会提到)4. 你的AI浓度超标了!曾经时间大家的模型同质化都是比较严重的,按照出图效果分类可以将这一部分融合模型模型分为:橘子、蜡笔、Anything、cf等多种系列,每一种系列中的不同模型实际上都效果相差不大,完全没有必要去下载全部的模型。不了解AI的人所说的“AI浓度超标”“AI味”,其实指的是橘子(AOM)这一系列模型的风格,具体效果是人物身体的表面有一种油光,多了解之后你就会发现,类似这种一整个系列都会有相似的风格。5. 你的VAE?不,是你的VAE!VAE重复问题在SD1.5是比较严重的,例如Anything V4.5 VAE,实际上和novelai的VAE是完全相同的,有不少模型自带的VAE是使用了其他的VAE并且只是更改了文件名称而已,实际上这些VAE的哈希值都是完全相同的。相同的VAE无需重复下载,这些完全重复的VAE除了占用宝贵的硬盘空间外毫无作用。下面是笔者这里所有的VAE的哈希对照:(当然并不是全部,肯定还有其他的)掌控全局:ControlNet控制网ControlNet是stable diffusion的一个插件,它可以通过添加条件图片的形式来自定义很多内容达到自己想要的效果扩展插件: Mikubill/sd-webui-controlnetControlNet的保存库: lllyasviel/ControlNet1.  ControlNet基本功能想要使用控制网,首先需要点击启用(Enable)不然再怎么调整都是没有任何效果的(不启用怎么可能有效果)图片位置:你可以选择需要使用的图片导入至此,用以制作模板预处理:指你想要如何处理上传的模板图片。对应的控制网模型需要与之相对应的模板。CN模型:选择你要使用的模型,例如人物姿态控制就需要使用openpose,想要切换图片的白天黑夜状态就需要使用shuffle,不同的模型对应不同的功能选择优先考虑对象:给提示词更好的表现还是给控制网更好的表现选择缩放模型:你可以类比为windows系统的壁纸,可以调整生成图和模板分辨率不同的时候如何处理。Control Type:图上没标注,为不同模型的预设设置,很方便。另外还有这三个选项也是很常用的:从左到右的顺序是控制网权重、控制网介入时机、控制网引导退出时机。实际效果顾名思义即可。2.  推荐教程我这里不可能讲解的面面俱到,而且很多内容仅停留在会用上,你可以查看一些up的视频来学习大江户战士的个人空间_哔哩哔哩_bilibiliControlNet1.1场景氛围转换_哔哩哔哩_bilibili我们可以炼丹了,你不觉得这很酷吗?(lora)1. 没有脚本,炼个P这里推荐使用秋叶的LoRA模型训练包https://www.bilibili.com/video/BV1AL411q7Ub/也可以使用Kohya的训练脚本kohya-ss/sd-scripts (github.com)或者是HCP-diffusion(相信会用这个的大概不会来看这个入门级文章的吧)7eu7d7/HCP-Diffusion: A universal Stable-Diffusion toolbox (github.com)不推荐使用任何预设参数的一键炼丹炉2. 开始训练的准备工作①首先你需要一个6GB以上显存的NVIDIA显卡,如果没有,可以尝试云端炼丹②你需要一个祖宗级基础模型sd1.5 2.0、novelai,不推荐使用任何融合模型。③如果使用非秋叶包,那么你还需要在webui上使用tagger插件④准备训练集:训练集打标可以使用秋叶整合包中的tagger模块,也可以使用webui中的tagger插件。但是需要注意:任何AI打标都不可能100%准确,有条件尽可能人工筛查一遍,剔除错误标注一般而言需要准备一个训练集文件夹,然后文件夹中套概念文件夹命名格式为:x_概念tagx为文件夹中图片的重复次数(repeat)【这个参数不在训练UI里调节,而是直接在文件夹名称上调节】训练集是LoRA训练的重中之重,训练集直接决定了LoRA模型的性能3. 你所热爱的,就是你的参数①学习率设置UNet和TE的学习率通常是不同的,因为学习难度不同,通常UNet的学习率会比TE高。我们希望UNet和TE都处于一个恰好的位置,但是这个值我们不知道。如果你的模型看起来过度拟合,它可能训练Unet过头了,你可以降低学习率或更少的步数来解决这个问题。如果你的模型生成噪点图/混乱难以理解的图片,那至少需要在学习率的小数点后面加个0再进行测试。如果模型不能复刻细节,生成图一点都不像,那么就是学习率太低了,尝试增加学习率降低TE学习率似乎对分离对象有好处。如果你在生成图片过程中发现了多余的物品,那么就需要降低TE学习率如果您很难在不对提示进行大量权重的情况下使内容出现,那么你就需要提高TE学习率。更好的方法是先使用默认参数训练测试,然后再根据测试的结果来调整对应的参数。(秋叶训练包里的默认参数都是自带的)②优化器AdamW8bit:默认优化器,一般而言不了解/不知道测试结果的直接使用这个优化器即可AdamW:占用显存更高,但是比8bit效果更好一点DAdaptation:自适应调整学习率,显存占用极高。有不少人使用这个优化器来摸最开始使用的学习率SGDNesterov8bit:极慢,不推荐使用SGDNesterov:极慢,不推荐使用AdaFactor:(笔者没用过)似乎效果比DAdaptation好很多Lion:占用显存较高,效果极好,但是比较难以控制,需要bs或者等效bs大于64才能达到极佳的效果。Lion8bit:占用显存可能更低③调度器设置linear:不断下降,直到最后为零。cosine:学习率呈余弦波形上下波动。cosine_with_restarts:(没用过带其他人补充)polynomial:类似linear,但曲线更漂亮constant:学习率不会改变。constant_with_warmup:类似于constant,但从零开始,并在warmup_steps期间线性增加,直到达到给定值。④噪声设置noise_offset:在训练中添加噪声偏移来改良生成非常暗或者非常亮的图像,如果启用推荐为0.1金字塔噪声:增加模型生成图亮度对比和层次感,效果极佳建议开启4. 过拟合和污染①触发词和过拟合,并没有十分严格的界定,除非一些lora是过拟到非常糟糕,直接吐原图那种。毕竟训练人物特征本身就需要一定的“过拟合”②训练中常见污染,主要是因为打标器认不出或者遗漏(训练集质量),还有大模型的部分问题导致更容易被诱发的特征,包括:1. 混入其中的奇怪动物。2. 喜欢侧视和背视。3. 双马尾/兽耳。4. 胳膊喜欢披点东西(比如外套)。出现此类情况可以先先检查训练集和标注,然后再更换模型测试另外:角色的不对称特征请处理使其尽量在同一侧,且不要开启训练时镜像处理。5. 删标法之争,没有绝对的对与错在角色训练方面,一直有两种不同的观点删除所有特征标:多用于多合一,优点是调用方便,一两个tag就能得到想要的角色特征,但缺点是1. 一些特征可能受底模影响发生偏移。2. 要换衣服和nsfw比较困难。3. 容易出现不同概念的相互污染。4. 提示词会不准确删除部分特征标:仅删除多个决定角色特征的tag标注全标:优点是提示词准确,但是部分角色效果可能不好出现(还原性较差)是否删标取决于自己想要什么:假设说我的训练图是一个红色的苹果,如果我们标注这个苹果是红色的,那么你可以在生成图片的时候生成出绿色的苹果。如果我们只标注苹果,那么这个红色的就作为苹果的固有属性,只要出现苹果,那么就是红色的。6. LoRA进阶训练方法分层训练:https://www.bilibili.com/video/BV1th411F7CR/完美炼丹术,差异炼丹法:https://www.bilibili.com/video/BV11m4y147WQ/LoRA BW插件:https://github.com/hako-mikan/sd-webui-lora-block-weight模型Merge,并不科学但确实有效1. 你权重乱了融合模型前请先去除模型中的EMA权重:模型在Merge后EMA将不再准确反映UNET,这种情况下EMA不止没啥用还会占用宝贵的硬盘空间2. 传统模型merge① 选择模型A、B、C②设置新模型名字一般来说可以设置为xxxMix(xxx为你想要的名称,Mix代表融合模型)在这里设置模型的名字。③设置Merge比例传统融合有两种方式,分别为:加权和Weighted sum:将两个模型权重的加权和作为新模型的权重,仅需要填入模型A和B,公式:A*(1-M) + B*M,倍率(M)为模型B所占比例加上差值Add difference:将模型B与C的差值添加到模型A,需要同时填入模型A、B和C,公式:A + (B-C)*M,倍率(M)为添加的差值比例④选择fp16请直接选择fp16,默认情况下,webui 会将所有加载的模型转换为FP16使用。所以很多时候更高的精度是没啥意义的,不使用--no-half这些模型将完全相同。而实际上哪怕使用--no-half,模型的差别也并不会很大,所以直接选择fp16测试效果即可。⑤Merge点击它后等待一会即可,模型在你的webui根目录下的models/Stable-diffusion文件夹。需要注意的是:传统融合效果并非比现在的mbw等操作效果差3.  Merge Block Weighted扩展插件: bbc-mc/sdweb-merge-block-weighted-gui插件基本功能:开始合并:点击后直接开始融合清空数值:将下方的滑条全部置为0.5刷新模型列表:刷新模型列表。在webui开启状态下,如果模型文件夹新加入了模型,那么将会无法自动识别。如果原模型区域找不到新加入的模型,那么点击这里即可刷新模型列表模型A:选择需要融合的模型A模型B:选择需要融合的模型B输出模型文件名:你要输出的模型文件名称,通常为xxxMix预设权重:官方预设融合权重,选择后直接加载进下面的滑块权重框:输入自定义的融合权重,输入完成后点击下面的按钮直接加载进滑块文本编码器比例:A和B模型的语义分析模块的融合比跳过或重置CLIP position_ids键值:防止clip偏移导致模型出现各种提示词识别问题,强烈建议选择:强制重置Force ResetMBE能达到的效果:画风更换、人体修复、剔除污染层等更详细的MBW详解:Merge Block Weight 魔法密录1.0正式版4.  LoRA的注入与提取扩展插件:hako-mikan/sd-webui-supermerger插件基本功能除了MBW以外还有LoRA处理的相关功能:当然更多进阶的功能可以到插件仓库去查阅README.md,这里不做更详细的讲解。通过两个ckp大模型之间做差可以得到一个LoRA。需要注意的是这里需要在filename(option)这一栏输入想要的名称,不然无法提取点击下面的LoRA然后在上面选择模型,就可以把LoRA注入到ckp大模型里(同样需要在filename(option)这一栏输入想要的名称,不然无法注入)。需要注意的是,这里只能注入LoRA,并不能操作Loha等一系列其他模型,如有报错请检查模型格式是否正确。注意:部分模型做差提取LoRA后使用和原ckp模型效果差距很大,部分LoRA注入后和直接使用效果差距也会很大,具体是否可用请根据不同的模型自行测试5. 灾难性遗忘与模型融合限制很多模型灾难性遗忘(本来模型会的被炼到不会了)现象较为严重(排除掉lora的一些特定需求 其余的微调大部分层次的训练都可能有这个现象),而模型融合会放大这个现象。(比如模型只能出1girl)更多的功能,更多的插件,无限的可能注意:安装扩充功能可能会导致Stable Diffusion WebUI启动变慢,甚至无法启动,并且哪怕使用启动器也无法扫描出异常。请不要自行下载DreamBooth的WebUI插件!!!请不要自行下载TensorRT 的WebUI插件!!!请不要自行下载TemporalKit 的WebUI插件!!!请不要自行下载Deforum 的WebUI插件!!!自行下载这些插件并且炸了的唯一最佳解决方法:完全删除并重装WEBUI1. 用Webui图形界面安装①最简单的方法就是点击Extensions → Available的Load from:,就会列出可下载安装的扩充功能,点击安装②部分不在列表的插件,需要将Github库链接直接填入WebUI插件下载区,等待自动加载完毕即可③安装完成后必须点击这里重启UI网页界面(小退)才能使用,有的插件则是需要“大退”,即关闭Webui实例,重新启动。④更新扩展插件推荐使用启动器,而非Webui内的检查更新。webui内的检查更新大概率会卡住。2. 使用git安装①(安装前需要关闭你的webui实例)在你的webui根目录/extensions文件夹打开终端,运行git clone指令,安装扩充功能。例如:git clone https://github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111.git②打开WebUI,你就会看到新安装的扩展功能③windows系统插件更新同样可以使用启动器进行更新3. 使用压缩包安装①github界面点击【Download ZIP】注意:请在尝试了其他安装方式并且均失败的情况下再选择直接下载zip解压②完整解压后放在扩展文件夹:你的WebUI所在文件夹/extensions(需要关闭你的webui实例)③重新开启webui后能在插件列表中看到即为安装成功4. 停用、卸载、删除插件①对于暂时不使用插件,点击扩展前面的✔并且重启用户界面即可②删除、卸载插件最简单的方法是在启动器界面点卸载(卸载插件前请关闭你的Webui实例)请远离玄学民科1.  说明AI绘画使用的超低门槛与实际研究群体的超高门槛之间存在着非常严重的断层。这就意味着玄学民科的内容会非常的多。模型理论科普V2.0.0627这个文档反驳了非常多的玄学民科内容,然而还有更多的玄学民科内容还在等着我们去科普2.  现状SD目前并没有专门的交流社区/或者说即使有交流社区那么环境也是比较差的(例如猫鼠队),而一般的网站又过于简单零碎各自为阵的群聊也有一部分人在输出玄学民科内容,并且还有相当的一部分人进行吹捧。而刚接触的新人也没啥分辨能力,自然而然的会出现,玩了几个月发现自己玩的都是垃圾,或者自己也加入输出这种内容等等情况。彻底卸载Stable Diffusion Webui1.  删除环境/软件python、git等软件都可以在windows系统内设置界面直接卸载,直接打开设置-应用-安装的应用搜索卸载即可2. 删除Webui本体直接删除Webui目录文件夹即可。注意这里有一个魔鬼细节:请不要在windows资源管理器内直接右键删除文件夹,如果这样直接删除,那么大概率需要几个小时的时间来检索文件目录。长期使用的stable diffusion Webui本体很可能有几十万个文件,检索相当耗时。推荐三种方法:①打开终端使用命令行删除②使用FastCopy直接删除所有(注意不要点左下角的擦除&删除)③如果你听了我的建议整个Webui相关的东西都放在了同一个盘符中,那么推荐使用快速格式化,这样删除是最快最方便的。3. 删除缓存文件①Webui缓存C:\Users\你的用户名\.cache这其中这4个文件夹是Stable Diffusion Webui所创建的缓存文件,只需要删除这四个文件夹就可以了,多出来的文件夹是你安装的许多其他的东西。②pip下载缓存C:\Users\用户名\AppData\Local\pip\cache如果找不到AppData文件夹那么请修改文件夹选项:隐藏文件和文件夹-显示隐藏的文件、文件夹和驱动器。cache文件夹可以直接全部删除不会影响其他的东西Stable diffusion相关词汇表● artificial intelligence generated content (AIGC): 生成式人工智能● ancestral sampling: 祖先采样,又称向前采样● annotation: 标示● batch count: 批量数量● batch size: 批量大小● checkpoint: 存盘点,模型格式,附文件名为.ckpt。● classifier-free guidance scale (CFG scale): 事前训练的条件控制生成方法。● CodeFormer: 2022年由Shangchen Zhou等人发表的脸部修复模型。● conditioning:制约训练● ControlNet: 2022年由Lvmin Zhang发表,通过加入额外条件来控制扩散模型的神经网络结构。● cross-attention: 分散注意● dataset: 数据集● denoising: 去噪,降噪● diffusion: 扩散● Denoising Diffusion Implicit Models (DDIM): 去噪扩散隐式模型,2022年由Jiaming Song等人发表的采样方法。● Dreambooth: Google Research和波士顿大学于2022年发表的深度学习模型,用于调整现有的文生图模型。● embedding: 嵌入● epoch: 时期● Euler Ancestral (Euler a): 基于k-diffusion的采样方法,使用祖父采样与欧拉方法步数。可在20~30步数生出好结果。● Euler: 基于k-diffusion的采样方法,使用欧拉方法步数。可在20~30步数生出好结果。● fine-tune: 微调● float16 (fp16): 半精度浮点数● float32 (fp32): 单精度浮点数● generate:生成图片● Generative Adversarial Network (GAN):生成对抗网络,让两个神经网络相互博弈的方式进行学习的训练方法。● GFPGAN: 腾讯于2021年发表的脸部修复模型。● hypernetwork: 超网络● image to image: 图生图● inference: 模型推理● inpaint: 内补绘制● interrogator: 图像理解● k-diffusion: Karras等人于2022年发表的PyTorch扩散模型,基于论文〈Elucidating the Design Space of Diffusion-Based Generative Models〉所实作。● latent diffusion: 潜在扩散● latent space: 潜在空间● learning rate: 学习率● Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion (LyCORIS)● low-rank adaptation (LoRA): 低秩自适应,2023年由Microsoft发表,用于微调大模型的技术。● machine learning: 机器学习● model:模型● negative prompts: 负向提示词● outpaint: 外补绘制● pickle: 保存张量的模型格式,附文件名为.pt● postprocessing: 后处理● precision: 精度● preprocessing: 预处理● prompts: 提示词● PyTorch: 一款开源机器学习库● safetensors: 由Huggingface研发,安全保存张量的模型格式。● sampling method: 采样方法● sampling steps: 采样步数● scheduler: 调度器● seed: 种子码● Stable Diffusion: 稳定扩散,一个文生图模型,2022年由CompVis发表,由U-Net、VAE、Text Encoder三者组成。● text encoder: 文本编码● text to image: 文本生成图片,文生图● textual inversion: 文本倒置● tiling: 平铺● token: 词元● tokenizer: 标记解析器● Transformers: HuggingFace研发的一系列API,用于辅助PyTorch、TensorFlow、JAX机器学习,可下载最新预训练的模型。● U-Net:用于影像分割的卷积神经网络● unified predictor-corrector (UniPC): 统一预测校正,2023年发表的新采样方法。● upscale: 升频,放大● variational auto encoder (VAE): 变分自动编码器● weights: 权重● xFormers: 2022年由Meta发表,用于加速Transformers,并减少VRAM占用的技术。
65
8
黏土风格火了!这些lora效果网友都在找(建议收藏)

黏土风格火了!这些lora效果网友都在找(建议收藏)

"黏土风格"是一种艺术表现形式,它通过对黏土的塑造和处理,创造出具有特定外观和感觉的作品。这种风格在近年来的短视频创作、图像编辑、手工艺品制作等领域中尤为流行。毒法师对黏土这种风格和纹理也是抵抗不住,熟悉毒法师的小伙伴都知道,我在流光器韵这个系列的LORA模型主打一个材质和纹理,所以最近也练了不同观感的几个黏土LORA,这里集中为大家介绍下使用方法和效果。一、风格介绍在手工艺品制作中,"黏土风格"通常指的是使用黏土材料制作的各种作品。这种风格的手工艺品具有较强的可塑性和创造性,可以让人们根据自己的想象和需求,打造出独一无二的作品。基于黏土这种特殊的材质,毒法师也是炼制了不同造型不同效果的几个LORA模型,目前有如下几个:1.黏土神兽2.黏土小人鱼3.黏土风格打工人4.黏土僵尸小女孩/小男孩5.黏土惊悚僵尸6.黏土调皮北鼻这几个LORA模型总体上都是粘土风格,但是在黏土的细腻程度、色彩以及纹理方面有较大差异,有的粗糙、有的细腻,有的色彩丰富、有的色彩单一,当然,造型也是大不一样,可用于游戏角色、海报画面,甚至是文创IP,只为满足大家不同的使用场景和期望的效果。二、使用说明目前这些LORA有的已经发布,有的还没有发布,毒法师这里以前两个为例介绍下画面效果和使用方法。1.模型获取:怎么获取这些LORA模型呢?请移步毒法师主页,https://tusi.cn/u/662557069739585057/models可以在主页看到这些黏土风格的LORA模型,使用可以在线跑图,也可以下载后在本地使用,个人经验,在线和本地跑图效果会有细微差别,不过主体风格是保持一致的。2.使用操作:底模的选择,使用写实类底模一般都能够出效果,不过不同的底模画面效果肯定会有差异,推荐使用GhostMix鬼混、麦橘系列以及天海Tenkai的模型,这几款毒法师在线跑图效果都很美丽。如黏土小人鱼这个,不仅可以出IP效果,使用写实真人模型,可以出真人效果。提示词的书写:这个没什么可说的,毒法师所有的LORA模型主打一个懒人使用、新手无门槛、单词恐惧患者友好,所以你只需要输入基本提示词即可,如1girl、1boy,dragon等等,简化到基本可以不写,当然,权重开大的话,你真的可以不写。另外,每个模型毒法师都会在线跑一些图,也会在每个模型的说明中有不同的关键词,调用更多效果,具体可以在模型的说明中查看。如黏土小人鱼这个,你可以加object on head,粘黏土神兽可以加teeth等。权重的选择,这几款的权重在0.65-0.85效果最好,但要注意,不同底模你的权重可能需要灵活调整,当然,权重的高低根据你想要的效果调整,如果连权重高LORA模型效果明显这种基本都不知道的话,可以退出了。其他参数的选择不用纠结,在线基本默认即可,如果要调建议采样用DPM++ 2M SDE Karras、restart、Euler a等。看起来复杂,用起来基本都是无脑直接出效果,信我,用过你会欲罢不能。
30
1
真正的立绘法——AI生成立绘图方法

真正的立绘法——AI生成立绘图方法

模型:【立绘法】VUPportrait/l2d立绘- A33 |吐司tusi.cn站内小工具(只能达到25%的效果):虚拟主播人设设计|吐司tusi.cn推荐模型&展示图片【均为本人粗制滥造随机出图,部分细节问题可通过图生图修改(例如:手、头发的错误)】旧的AnythingV3(FT)模型:(已删,想要此效果可以尝试AnythingV5)新的VUPportrait/l2d专用模型:(推荐,更便于拆分和后续制作)【立绘法】VUPportrait/l2d立绘- A33 |吐司tusi.cn目前只推荐使用A3.33/VUPportrait专用模型其余社区模型均不建议用于AI立绘制作。如果使用其他或者旧模型,会出现各种问题(例如经典的“怀旧服”“AI画风”,或者其他不可控因素)制作方法● 提示词:非lora立绘法起手式:(注意这里请不要使用立绘lora)official art,1girl, simple background,[(white background:1.5)::0.2],open-mouth,(whitebackground:1.2)+具体人设tag想加的可以加一个加个(实际上加不加都行)<lora:charturnbetalora:0.2>这个lora,在秋叶视频有这个lora的分享● contronet设置其次是对应的contronet设置,具体参数如下图所示,预处理选无,模型使用openpose,模板图在最下面,分三种体型在吐司工作台就选择点击controlNet选择openpose直接上传控制图就好了● 其他设置采样方式随意,目前测试Euler和DMP一系列还有UniPC都是没啥问题的必须开启高清修复,放大倍率推荐为2,重绘倍率开0.6以上输出图尺寸推荐为320*640放大后为640*1280【也可以跟图中一样,放大倍率4,输出尺寸160*320。放大后统一为640*1280】附带图片体型分别为:萝莉/少女(少年)/成女(成男)AI面补这里附带AI面补的相关内容,效果并不是很好,有条件请自行制作模型yuyuyzl/EasyVtuber: tha3, but run 40fps on 3080 with virtural webcam support (github.com)
36
2
膨胀工作流

膨胀工作流

展示图:如何直接使用:方法一:直接使用此链接:https://tusi.cn/template/run/727198960355304059?source_id=601113246111368709点击生成后,直接上传图片再点在线生成即可方法二:①在吐司(tusi.cn)搜索:膨胀图标LOGO或者直接打开以下链接:https://tusi.cn/template/727198960355304059②在右侧点击上传你需要处理的图片,点击在线生成即可原理:工作流是很常见的ControlNet工作流:利用ControlNet使用输入的LOGO图作为控制图,再通过专用模型来实现效果。如何搭建类似工具:搭建类似的工作流可以查看以下教程文档:如何DIY模板小工具
14