🚀 Florence-2-base-PromptGen
Florence-2-base-PromptGenは、MiaoshouAI Tagger for ComfyUI 用に学習されたモデルです。これは、Microsoft Florence-2 Model をベースに高度に微調整された、先進的な画像キャプション生成ツールです。
🚀 クイックスタート
Florence-2-base-PromptGenは、MiaoshouAI Tagger for ComfyUI 用に最適化された画像キャプション生成モデルです。このモデルは、Microsoft Florence-2モデルをベースにしており、画像のタグ付けとプロンプト生成の精度と体験を向上させるために学習されています。
✨ 主な機能
タグ付けとプロンプト生成の最適化
現在のほとんどのビジョンモデルは一般的なビジョン認識を目的として学習されていますが、モデル学習のためのプロンプト作成や画像タグ付けでは、キャプションの形式と詳細が大きく異なります。Florence-2-base-PromptGenは、このような目的のために学習されており、タグ付けの精度と体験を向上させることを目指しています。
新しい命令プロンプト
<DETAILED_CAPTION> と <MORE_DETAILED_CAPTION> に加えて、新しい命令プロンプト <GENERATE_PROMPT> が作成されました。これにより、danbooruタグ付けスタイルで、より高い精度と適切な詳細度で応答することができます。
📦 インストール
このモデルを使用するには、Hugging Face Model Hubから直接ロードすることができます。
model = AutoModelForCausalLM.from_pretrained("MiaoshouAI/Florence-2-base-PromptGen", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("MiaoshouAI/Florence-2-base-PromptGen", trust_remote_code=True)
prompt = "<GENERATE_PROMPT>"
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=image, return_tensors="pt").to(device)
generated_ids = model.generate(
input_ids=inputs["input_ids"],
pixel_values=inputs["pixel_values"],
max_new_tokens=1024,
do_sample=False,
num_beams=3
)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]
parsed_answer = processor.post_process_generation(generated_text, task=prompt, image_size=(image.width, image.height))
print(parsed_answer)
💻 使用例
基本的な使用法
model = AutoModelForCausalLM.from_pretrained("MiaoshouAI/Florence-2-base-PromptGen", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("MiaoshouAI/Florence-2-base-PromptGen", trust_remote_code=True)
prompt = "<GENERATE_PROMPT>"
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=image, return_tensors="pt").to(device)
generated_ids = model.generate(
input_ids=inputs["input_ids"],
pixel_values=inputs["pixel_values"],
max_new_tokens=1024,
do_sample=False,
num_beams=3
)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]
parsed_answer = processor.post_process_generation(generated_text, task=prompt, image_size=(image.width, image.height))
print(parsed_answer)
高度な使用法
ComfyUI-Miaoshouai-Taggerでこのモデルを使用する場合は、以下のリンクを参照してください。
https://github.com/miaoshouai/ComfyUI-Miaoshouai-Tagger
ここには詳細な使用方法とインストール手順が記載されています。
📚 ドキュメント
バージョン履歴
- v0.8: <GENERATE_PROMPT> 用に新しい命令が学習されました。
- v0.9: <DETAILED_CAPTION> と <MORE_DETAILED_CAPTION> のための非検閲データに対するビジョン能力が向上しました。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。