comfyui-florence2插件

admin2025-04-24101

Florence-2是一个由微软Azure AI团队推出的多功能视觉模型,Florence-2能够执行图像描述、目标检测、视觉定位和图像分割等多种计算机视觉任务。

插件

插件地址:https://github.com/kijai/ComfyUI-Florence2

模型地址:

官方:

https://huggingface.co/microsoft/Florence-2-base

https://huggingface.co/microsoft/Florence-2-base-ft

https://huggingface.co/microsoft/Florence-2-large

https://huggingface.co/microsoft/Florence-2-large-ft

https://huggingface.co/HuggingFaceM4/Florence-2-DocVQA

已测试微调:

https://huggingface.co/MiaoshouAI/Florence-2-base-PromptGen-v1.5

https://huggingface.co/MiaoshouAI/Florence-2-large-PromptGen-v1.5

https://huggingface.co/thwri/CogFlorence-2.2-Large

https://huggingface.co/HuggingFaceM4/Florence-2-DocVQA

https://huggingface.co/gokaygokay/Florence-2-SD3-Captioner

https://huggingface.co/gokaygokay/Florence-2-Flux-Large

https://huggingface.co/NikshepShetty/Florence-2-pixelpros

这些模型可以自动下载 DownloadAndLoadFlorence2Model 到 ComfyUI/models/LLM

节点

DownloadAndLoadFlorence2Model:下载需要的模型并加载

DownloadAndLoadFlorence2Lora:下载需要的Lora并加载

Florence2ModelLoader:当模型已经下载后,再次使用时就可以直接用这个加载模型

Florence2Run:运行,执行任务

详解

image.png

  • Florence-2-base:基础模型,

  • Florence-2-base-ft:基础模型的微调模型

  • Florence-2-large:较大的模型,

  • Florence-2-large-ft:较大的模型的微调模型

  • Florence-2-large-PromptGen-v2.0

  • Lama-3.1-8B-Lexi-Uncensored-V2

  • Lama-3.2-11B-Vision-Instruct-nf4

  • Meta-Llama-3.1-8B-Instruct

  • Phi-3.5-mini-instruct

  • Phi-3.5-vision-instruct

  • HuggingFaceM4/Florence-2-DocVQA:文档视觉模型

  • thwri/CogFlorence-2.1-Large

  • thwri/CogFlorence-2.2-Large

  • gokaygokay/Florence-2-SD3-Captioner

  • gokaygokay/Florence-2-Flux-Large

  • MiaoshouAI/Florence-2-base-PromptGen-v1.5

  • MiaoshouAI/Florence-2-large-PromptGen-v1.5

  • MiaoshouAI/Florence-2-base-PromptGen-v2.0

  • MiaoshouAI/Florence-2-large-PromptGen-v2.0

image.png

  • region_caption :识别图像中的特定区域,检测出图像中的各种元素,并对这些区域的元素呢进行一个描述

  • dense_region_caption:跟上面一样,只是检测的区域更多一些,元素更多一些。

  • region_proposal:跟上面一样,但是但是它不会给出任何的提示信息了,不会告诉你这是什么那是什么。但是它会把每个区域都检测出来了,它检测的比上面两个检测的区域都要多。

  • caption:上面的都是遮罩的检测,这个是对图像的自然语言描述,相当于反推提示词。

  • detailed_caption:跟上面的一样,只是更详细。

  • more_detailed_caption:跟上面额一样,但是这个最详细。

  • caption_to_phrase_grounding:支持在text_input中输入描述,进行任务互动。可以根据提示词描述检测图像中的元素,给出遮罩(bbox方形遮罩)、编号、文本信息和数据信息。当检查出多个遮罩,可以在output_mask_select里填写序号,选择一个或多个,支队mask的结果产生影响,其他3个结果不影响。

  • referring_expression_segmentation:支持在text_input中输入描述,进行任务互动。跟上面的差不多,支持检测出来的遮罩不是bbox的方形遮罩了,而是精确的检测出来,但实际效果不如其他插件。另外没有编号和数据信息。多次检测或不同模型检测出来的结果会不一样。

  • ocr:从图像中识别提取文本,可以输入图像和视频,但只支持英文。

  • ocr_with_region:跟上面的一样,另外还会把文本区域标识出来。

  • docvqa:文档视觉问答,支持在text_input中输入描述,进行任务互动。读取文档,像对话模型一样对话。

  • prompt_gen_tags:对文档的总结,必须配合文档视觉模型Florence-2-DocVQA

  • prompt_gen_mixed_caption:

  • prompt_gen_analyze:

  • prompt_gen_mixed_caption_plus:

参考

https://www.bilibili.com/video/BV1MSYQeTELm/


网友评论