Comfy-WaveSpeed插件

admin2025-02-111420

介绍

wavespeed 测试下来，出图时间省了一半，图片质感又没缺失多少，这个wavespeed不仅针对图片加速，对生成视频也可以加速。

左下角是出图所用时间，左边是原图出图时间，中间是用上wavespeed里面一个加速功能的时间，右边是用了wavespeed2个功能的出图时间，直接翻倍了。

46b7148ca0985301bbd9fe1b80ac88f9_v2-2bbbfc23e82e36c88580b06e242a947e_1440w.jpg

插件地址：https://github.com/chengzeyi/Comfy-WaveSpeed/tree/main

功能：支持FLUX 、 LTXV (native and non-native) 、 HunyuanVideo (native)和SDXL等多种模型。

原理

受TeaCache和其他去噪缓存算法的启发，引入了第一块缓存（FBCache），使用第一个Transformer块的残差输出作为该高速缓存指示器。如果当前和第一个Transformer块的先前残差输出之间的差足够小，则可以重用先前的最终残差输出，并跳过所有后续Transformer块的计算。这可以显著降低模型的计算成本，在保持高精度的同时实现高达2倍的加速。主要有两个节点。

节点一：Apply First Block Cache

使用第一个块缓存，只需添加 wavespeed->Apply First Block Cache 在Load Diffusion Model节点之后将节点添加到工作流程，并将residual_diff_threashold值调整为适合模型的值，例如：对于具有fp8_e4m3fn_fast和 28 个步骤的flux-dev.safetensors为0.12 。预计速度将提高 1.5 倍至 3.0 倍，并且精度损失可接受。

cc717821bc826ecf15974f97670c1a66_v2-68ea61505ee43e93950bc01a01ada9ee_1440w.jpg

使用方法

要使用这个插件加速技术，对应的节点如下，在加载模型后面直接跟上这个Apply First Block Cache节点即可，很简单。

148ca987a41e9870bf7e4165ede1beee_v2-967667ea07453034d059072910f200d8_1440w.jpg

使用的话主要点有几点：

• 步骤至少要28步，这个加速主要是后半部分速度提升很快，如果步数太少了没效果。

• 权重推荐是设置0.12，数字越大，出图越快，但是值大了图就模糊了。

• 要用原生模型 dev fp16或者fp 8，不要用微调版本

这一步速度提升大概是1.7倍。这还只是第一重提速，官方说明后面还有一个增强的，利用了 torch.compile技术，在上面 Apply First Block Cache节点后面再添加了一个 Compile Model+的节点即可。

节点二：增强torch.compile

window电脑使用这个torch.compile好像会报错，如果你也遇到如下这个错误，那就需要安装triton了。

我查了资料，好像是对window电脑不是很兼容，需要自己去下载文件编译安装triton。

https://github.com/woct0rdho/triton-windows/releases/tag/v3.1.0-windows.post5

下载你电脑对应的python版本的包，我这里ComfyUI对应的是python 10，所以我就下载 triton-3.1.0-cp310-cp310-win_amd64.whl

然后我把这个文件放到了ComfyUI下面的python目录下

最后进入这个目录下的命令窗口，输入命令：

python.exe -m install triton-3.1.0-cp310-cp310-win_amd64.whl

就安装上这个 triton依赖包了。

然后就可以用了。我自己测试下来，同时使用Apply First Block Cache节点和Compile Model+节点，出图速度提升了2.3倍。

注意：使用 FP8 量化编译模型不适用于 RTX 3090 等 Ada 之前的 GPU，您应该尝试使用 FP16/BF16 模型或删除编译节点。

Comfy-WaveSpeed插件

介绍

原理

AI