ComfyUI反推提示词大全

admin2024-10-15275

WD14反推提示词

这个反推方式是最差的,基本不用了。

这个节点可以选择多种反推模型,如下

clip询问机

moondream询问机

ollama节点

Gemini节点

总结,你要是想把图片的风格(比如梵高风格、水彩风格、山水画风格)也反推出来的话,用clip询问机节点和Gemini节点是最好的,个人总结用Gemini节点最好,其次是clip询问机节点,其中wd节点没啥用,它只能识别出图片看得见的元素,它的效果最差的。2024年5月2日起,Gemini API 将开始收费,用户需在官方网站申请API密钥以继续使用服务,申请地址makersuite.google.com/app/apikey

CLIP_Interrogator

ComfyUl Layer Style 插件3种

提示词反推(LayerUtility: PromptTagger)

image.png

需要申请谷歌API,填写到“api_key.ini.example”文件里,把 example 后缀删除。

JoyCaption2

它可以使用两种Llama3.1的大模型来为图像打标,分别是“V2版”和“指导版本”,都有14g大小。

image.png

接口

image: 图片输入。

extra_options: extra_options参数输入。

选项

Ilm_model:选择模型,目前有 Orenguteng/Llama-3.1-8B-Lexi-Uncensored-V2 和 unsloth/Meta-Llama-3.1-8B-Instruct 两种LLM模型可选择。V2版本效果好一些。

device:模型加载设备。目前仅支持cuda。

dtype:模型加载精度,使用nf4,运行比较快,bf16则非常消耗显存。

vlm_lora:是否加载text_model。

caption_type:选择提示词形式, caption类型选项, 包括"Descriptive"(正式语气描述), "Descriptive (Informal)"(非正式语气描述), "Training Prompt"(SD训练描述), "MidJourney"(MJ风格描述), "Booru tag list"(标签列表), "Booru-like tag list"(类标签列表), "Art Critic"(艺术评论), "Product Listing"(产品列表), "Social Media Post"(社交媒体风格)。一般选择MidJourney,效果好。

caption_length:反推出的提示词长度,一般选择any,不做限制,

user_prompt:LLM模型的用户提示词。如果这里有内容将覆盖caption_type和extra_options的所有设置。

max new_tokens: LLM的max_new_tokens参数。

top_P:LLM的top_p参数。设置的越大,提示词的创意性就越丰富。

temperature:LLM的temperature参数。跟top_P配合使用,设置越高创意越丰富,越低提示词越严谨。

cache_model:是否缓存模型。

image.png

Llama vision

它是使用Llama3.2的一个比较小的模型,大约7gb大小。

image.png

ComfyUI Layer Style 插件提示词反推功能测试.rar

最后,作者建议使用效果最佳的V2模型进行实际应用。

网友评论