SD大模型种类对比

admin2024-08-13774

分别介绍一下各类主流生图大模型的主要特点,初步了解各类大模型的使用特点和使用方法。

SDXL

简介:
电脑配置WebUI至少8GB显存,在ComfyUl中可能占用更低。尽可能放置在固态硬盘内,保证充足内存,因为共同原因:XL很大,读取很费劲。
SDXL有更高水平的照片,级写实能力和丰富的视觉效果,可以用自然语言+风格提示词描述。
优势:
  • 对提示词的包容度变的非常高,不需要额外质量提示词,对意境、氛围还原更到位。

  • 能够更好的识别自然语言,可以直接使用常用语句描述场景。

  • 更大更高清的分辨率,最好以1024分辨率为基础出图。

  • 增加了Refiner优化模型,可以把跑出来的图用这个模型再跑一遍,或者前半段在Base上跑后半段在Refiner上跑,推荐切换时机0.8,以丰富细节,Refiner迭代步数越高越精细。

  • 生成内容更加准确,可以初步生成简单英文和初步画好手,但仍会有错误。

  • XL为使用者提供了更丰富的艺术风格选项。

  • 默认不可见水印。

使用注意:
生图时分辨率至少有一个边为1024。
迭代步数建议大于20步以上,建议在20-50以内。
提示词引导系素CFG值不要大于7,太大会得到较差图像。
Refiner优化模型的迭代步数一半设置为10-20。

SDXL_lightning

简介
字节跳动出品,推荐迭代步数为4步。生成图片又快又精美。提供了lora模型让你跟其他XL模型配合使用。它可以通过几个步骤生成高质量的 1024px 图像。
模型是从stable-diffusion-xl-base-1.0中提炼出来的。包含 1 步、2 步、4 步和 8 步检查点。我们的 2 步、4 步和 8 步模型的生成质量令人惊叹。我们的1步模型更具实验性。
下载地址:https://huggingface.co/ByteDance/SDXL-Lightning
使用方法:
  1. 底模模式。直接使用SDXL-lightning底模,支持2-8步的采样,推荐4步;

  2. UNET模式。使用UNET,最低支持1步,但官方表示,1步可能不稳定,建议2步;

  3. LoRA模式。通过加载LoRA方式加速,支持支持2-8步的采样,推荐4步;

  4. 配合的采样器推荐使用SGM Uniform调度器,效果最好。

总结:
  • 大模型为lightning模型时,不需要lightning的lora模型配合使用。

  • 大模型为其他的XL模型时,可以和lightning的lora模型配合使用,让普通的XL模型在4步情况下,生成速度和质量有一样效果。

  • 完整的 UNet 模型具有最佳质量,而 LoRA 模型可以应用于其他基础模型。

  • SDXL_lightning的速度跟TURBO模型差不多,但是它出的图比TURBO模型精美。

  • SDXL_lightning的lora模型跟之前的lcm的lora模型的作用都是可以加快我们的生图速度。

  • 负面提示词无效果。

Turbo

简介
SD官方出品,有专门的TURBO大模型,推荐迭代步数为1步即可。
下载地址:https://huggingface.co/stabilityai/sdxl-turbo/tree/main
使用方法:
  1. 采样器选择支持最好的Euler a或者LCM。

  2. 迭代步数为1步,CFG改成2以下。

  3. 最理想的出图大小时512*512左右,目前模型版本分辨率还不能去到1024级别。

总结:
生成的图片放大了后,图片容易模糊,生的图也容易结构崩坏。

LCM

简介
清华大学出品,有专门的大模型,有专门的Lora模型,可以采样任何大模型使用,推荐迭代步数为4-5步。
https://www.bilibili.com/video/BV19c411z7Bo/?spm_id_from=333.788&vd_source=24340222358cd9132e8a4bbfc19d4b12
下载地址:https://huggingface.co/latent-consistency/lcm-lora-sdxl
分别点击进去,
两个模型名字一样,所以下载下来后可以改一下,便于分别1.5的和XL的。
使用方法:
Euler a是所有默认采样器里面对LCM支持最好的一个。
  1. 选择任意大模型。

  2. 采样方法选择Euler a或者LCM,迭代步数设为5,CFG改成1。

  3. 添加LCM的Lora进提示词。

  4. 点击生成。

总结:
  • SD1.5模型下,5步的速度比1步的SDXLTurbo还要快。

  • SDXL模型下,比普通SDXL模型要快30%,但没有SDXLTurbo快。

  • 目前还是1.5版本的LCM技术更适合stablediffusion的webui平台。

  • 同样的参数下,采用高分辨率放大2倍,LCM细节表现有显著的提升。

  • Euler a放大的画面已经开始有过度拟合的情况出现。

  • DPM++ 2M Karras采样器放大效果不能看。

Turbo+LCM

简介
大模型的一种,现在市场上逐渐有作者推出了Turbo+LCM的一切叠加融合的大模型了。搭配Eular a采样器,可以在6-8步内生图,是原sdxl版本的三倍速。
总结:
  • 效果上Turbo+LCM双融合>Turbo单融合>LCM单融合。

  • 这种模型至少需要5步以上才能生成好的效果图片。

  • 不过它解决了SDXL Turbo分辨率不足的问题,可以出1024分辨率的图片。

Stable Cascade

目前不能商用,Comfyui中使用,Webui暂不支持。
  1. 对提示词理解比XL更强。

  2. 生成速度比XL更快。

教程:https://v.douyin.com/iYD6jY1D/
下载地址:https://huggingface.co/stabilityai/stable-cascade
b和c均有4个模型,根据显卡放置其中一个即可。按容量越大,要求显存越高,质量越好。
stage_c.safetensors             最高
stage_c_bf16.safetensors        其次
stage_c_lite.safetensors        第三
stage_c_lite_bf16.safetensors   容量最小
安装:
  1. 把刚才下好的stage b和stage c,放到ComfyUI的models文件夹下的unet文件夹。

  2. 然后呢把stage a 放在models文件夹下的VAE文件夹。
    1. stage a 在 huggingface 的 text encoder 目录里。

  3. 把text encoder文件夹下的model.bf16.safetensors,放到这个models文件夹下的clip文件夹下。

Node:
  1. stage_c:主要负责图像推理和潜空间噪声的大模型。也是最消耗显存的模型。如果跟SDXL模型对比,可以理解为SDXL的Base大模型

  2. stage_b:可以理解为相当于SDXL的refiner模型。主要负责接受stage_c传递过来的图像噪声,通过stage_b模型完成后续图片的生成。噪声在stage_b的Ksampler中完成

  3. stageB_Conditioning:这个节点主要的作用就是用来接受stage_c噪声后的图像

  4. StableCascade_EmptyLatentImage中的compression是指压缩比例。官方推荐1024*1024的SDXL比例像素,压缩值设置为42-50之间即可。太高和太低出图效果都不好。

  5. StableCascade_StageB_Conditioning节点是将stage_c处理的图像传递给Stage_b模型对应的ksampler中。Stage_b的ksampler不需要negative反向提示词。

  6. load clip:Load CLIP中需要加载cascade专用的model.safetensors来对图像进行CLIP层中进行处理。可以理解为通过这个模型在Clip层中对图像进行分层推理。

  7. stage_a:这个模型可以理解为sdxl的vae模型。是cascade模型对应的vae模型。通过这个模型对图像进行编码和解码操作

  8. ImageSharpen:锐化功能

  9. EnhanceImage:图像增强功能

  10. StableCascade暂时不支持Lora和Controlnet以及其他生态模型的加载。也不能配合SD1.5等其他的模型进行混合使用。

  11. 整体而言这个StableCascade还是未来可期的。它可以通过更少的步数和cfg达到超于SDXL质量的图。而且速度比SDXL快了30%-40%。如果以后生态形成,支持lora和controlnet等功能,那么会有质的提升。S


Playground V2.5

Playground公司出品。Playground v2.5是美学质量最先进的开源模型。用户研究表明,我们的模型优于SDXL、Playground v2、PixArt-a、DALL-E3和Midjourney 5.2.
下载地址:https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic
教程:https://v.douyin.com/iYDh8PGy/
模型:
上面两个模型任意下载一个即可,模型下载后跟其他种类大模型放在一起。

CosXL和CosXL_Edit

简介
stable diffusion的母公司 Stability·AI发布了两个新的模型,CosXL和CosXL_Edit,这两个模型与PlayGround V2.5模型一样,都采样连续采样算法EDM。
与其他普通的SD模型相比,CosXL模型和CosXL_Edit模型在对艺术风格的理解能力更强,对色彩和对比度的运用更加大胆,对构图的理解能力有所提升。不过,新模型对人脸和人物的生成反而不如普通的SDXL模型,总来来说,这两个模型在艺术表达方面有所提升,但在写实方面有所弱化,如果你是一个平面艺术工作者,或者是油画爱好者,可以尝试使用该模型,为自己的创作带来新的灵感!
下载地址:https://huggingface.co/stabilityai/cosxl/tree/main
图文教程:https://caovan.com/stabilityaifabucosxlhecosxl_editlianggexinmoxing-duibiaoplayground-v25/.html

SD3

优势:
  1. 增加了文字渲染能力,可以准确的生成文字信息。

  2. 对提示词的识别能力显著提升,这得益于t5xxl的大语言模型。

  3. 可以直接使用汉字提示词。

  1. 图片质量得到了大幅的增强,开源版本的训练参数最高达到了20亿。

版本:
目前开源的SD3一共有三个版本,分别是4GB 5GB和10GB的版本.
其中4GB版本还需要下载这里对应的text_encoders才能使用。
5GB和10GB的版本已经内置了text_encoders编码器,不需要额外下载,建议直接使用10GB。
clip模型放置到Comfyui安装目录的models\clip里面
SD3模型放置到Comfyui安装目录的models\checkpoints里面

Kolors

简介
快手公司出品,开源,商用需申请。
特点:
  1. 可以直接使用中文提示词。

  2. 可以直接生成中文在图片上。

  3. 对复杂语义理解不错。

使用教程
目前已经发现3种。
https://www.bilibili.com/video/BV1hy411i7GL/


网友评论