LayerStyle的JoyCaption2和llama vision提示词反推图像打标
LayerStyle插件里有两个提示词反推插件,分别是JoyCaption2和llama vision,可以用于为图像打标。其中JoyCaption2节点有两种模型可以使用,分别是“Orenguteng/Lama-3.1-8B-Lexi-Uncensored-V2”“unsloth/Meta-Lama-3.1-8B-Instruct”都有14gb大小,其中V2版本效果较好。llama vision节点使用的模型“Llama-3.2-11B-Vision-Instruct-nf4”大小有7gb,
插件
下载地址:https://github.com/chflame163/ComfyUI_LayerStyle
路径:
新建节点->dz节点->图层工具->LayerUbility:JoyCaption2
新建节点->dz节点->图层工具->LayerUtility:JoyCaption2 Extra Options
新建节点->dz节点->图层工具->LayerUtility:Llama Vision
特点
JoyCaption2 Extra Options节点能够控制反推提示词的类别范围。
节点
LayerUbility:JoyCaption2
参数
image: 图片输入。
extra_options: extra_options参数输入。
llm_model: 目前有 Orenguteng/Llama-3.1-8B-Lexi-Uncensored-V2 和 unsloth/Meta-Llama-3.1-8B-Instruct 两种LLM模型可选择。
device: 模型加载设备。目前仅支持cuda。
dtype: 模型加载精度,有nf4 和 bf16 两个选项。
vlm_lora: 是否加载text_model。
caption_type: caption类型选项, 包括"Descriptive"(正式语气描述), "Descriptive (Informal)"(非正式语气描述), "Training Prompt"(SD训练描述), "MidJourney"(MJ风格描述), "Booru tag list"(标签列表), "Booru-like tag list"(类标签列表), "Art Critic"(艺术评论), "Product Listing"(产品列表), "Social Media Post"(社交媒体风格)。
caption_length: 描述长度。
user_prompt: LLM模型的用户提示词。如果这里有内容将覆盖caption_type和extra_options的所有设置。
max_new_tokens: LLM的max_new_tokens参数。
do_sample: LLM的do_sample参数。
top-p: LLM的top_p参数。
temperature: LLM的temperature参数。
cache_model: 是否缓存模型。
测试:用时395192秒。
LayerUtility:JoyCaption2 Extra Options
作用:用于控制 JoyCaption2 节点反推提示词范围
参数
refer_character_name: 如果图像中有人物/角色,必须将其称为{name}
exclude_people_info: 不要包含有关无法更改的人物/角色的信息(例如种族、性别等),但仍包含可更改的属性(例如发型)。
include_lighting: 包括照明信息。
include_camera_angle: 包括摄影机角度信息。
include_watermark: 包括是否有水印信息。
include_JPEG_artifacts: 包括是否存在 JPEG 伪影信息。
include_exif: 如果是照片,包含相机的信息以及光圈、快门速度、ISO等信息。
exclude_sexual: 不要包含任何与性有关的内容,保持PG。
exclude_image_resolution: 不要包含图像分辨率信息。
include_aesthetic_quality: 包含图像美学(从低到非常高)信息。
include_composition_style: 包括有关图像构图风格的信息,例如引导线、三分法或对称性。
exclude_text: 不要包含任何文字信息。
specify_depth_field: 包含景深以及背景模糊信息。
specify_lighting_sources: 如果可以判别人造或自然光源,则包含在内。
do_not_use_ambiguous_language: 不要使用任何含糊不清的言辞。
include_nsfw: 包含NSFW或性暗示信息。
only_describe_most_important_elements: 只描述最重要的元素。
character_name: 如果选择了refer_character_name,则使用此处的名字。
测试:用时613542秒。
LayerUtility:Llama Vision
测试:用时440880秒。
总结
以上各种用时都很长,效果相对更好的是“JoyCaption2”节点使用“V2”版本模型。模型都太大了,保留常使用的模型就可以了。有其他小伙伴说joy在推理空间关系上是众多提示词反推中最好的。