Florence-2-base-PromptGen画像記述ツール - オープンソースで画像プロンプトとタグタスクの最適化を支援

ホーム

Florence 2 Base PromptGen

MiaoshouAIによって開発

マイクロソフトのFlorence - 2モデルをベースに微調整された画像記述ツールで、画像プロンプトとタグタスクに特化して最適化されています。

画像生成テキスト

Transformers

オープンソースライセンス:MIT #AI絵画プロンプト生成 #Danbooruスタイルタグ #画像記述最適化

ダウンロード数 1,295

リリース時間 : 7/12/2024

モデル概要

Florence - 2 - base - PromptGenは、画像プロンプトとタグタスクに特化して最適化された高度なモデルで、ターゲットトレーニングによりタグの精度と体験を向上させ、特にモデルトレーニングの関連作業に適しています。

モデル特徴

ターゲットトレーニング

モデルトレーニングにおけるプロンプトとタグのニーズに特化してトレーニングされており、汎用ビジョンモデルとは異なり、よりニーズに合った記述形式と詳細を提供できます。

新しい指令プロンプト

新しい<GENERATE_PROMPT>指令が追加され、danbooruタグスタイルで応答し、より高い精度と適切な詳細レベルのタグを提供します。

バージョン最適化

v0.8バージョンで新しい指令トレーニングが追加され、v0.9バージョンで未審査データに対するビジョン能力が向上しました。

モデル能力

画像記述生成

画像タグ生成

詳細な画像分析

多様な詳細レベルの記述

使用事例

AIモデルトレーニング

トレーニングプロンプト生成

AIモデルトレーニング用の高品質な画像記述とタグを生成します。

モデルトレーニングデータの品質と関連性を向上させます。

画像分析

詳細な画像記述

豊富な詳細を含む画像記述を生成します。

より包括的な画像理解を提供します。

🚀 Florence-2-base-PromptGen

Florence-2-base-PromptGenは、MiaoshouAI Tagger for ComfyUI 用に学習されたモデルです。これは、Microsoft Florence-2 Model をベースに高度に微調整された、先進的な画像キャプション生成ツールです。

🚀 クイックスタート

Florence-2-base-PromptGenは、MiaoshouAI Tagger for ComfyUI 用に最適化された画像キャプション生成モデルです。このモデルは、Microsoft Florence-2モデルをベースにしており、画像のタグ付けとプロンプト生成の精度と体験を向上させるために学習されています。

✨ 主な機能

タグ付けとプロンプト生成の最適化

現在のほとんどのビジョンモデルは一般的なビジョン認識を目的として学習されていますが、モデル学習のためのプロンプト作成や画像タグ付けでは、キャプションの形式と詳細が大きく異なります。Florence-2-base-PromptGenは、このような目的のために学習されており、タグ付けの精度と体験を向上させることを目指しています。

新しい命令プロンプト

<DETAILED_CAPTION> と <MORE_DETAILED_CAPTION> に加えて、新しい命令プロンプト <GENERATE_PROMPT> が作成されました。これにより、danbooruタグ付けスタイルで、より高い精度と適切な詳細度で応答することができます。

📦 インストール

このモデルを使用するには、Hugging Face Model Hubから直接ロードすることができます。

model = AutoModelForCausalLM.from_pretrained("MiaoshouAI/Florence-2-base-PromptGen", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("MiaoshouAI/Florence-2-base-PromptGen", trust_remote_code=True)

prompt = "<GENERATE_PROMPT>"

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=prompt, images=image, return_tensors="pt").to(device)

generated_ids = model.generate(
    input_ids=inputs["input_ids"],
    pixel_values=inputs["pixel_values"],
    max_new_tokens=1024,
    do_sample=False,
    num_beams=3
)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]

parsed_answer = processor.post_process_generation(generated_text, task=prompt, image_size=(image.width, image.height))

print(parsed_answer)

💻 使用例

基本的な使用法

model = AutoModelForCausalLM.from_pretrained("MiaoshouAI/Florence-2-base-PromptGen", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("MiaoshouAI/Florence-2-base-PromptGen", trust_remote_code=True)

prompt = "<GENERATE_PROMPT>"

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=prompt, images=image, return_tensors="pt").to(device)

generated_ids = model.generate(
    input_ids=inputs["input_ids"],
    pixel_values=inputs["pixel_values"],
    max_new_tokens=1024,
    do_sample=False,
    num_beams=3
)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]

parsed_answer = processor.post_process_generation(generated_text, task=prompt, image_size=(image.width, image.height))

print(parsed_answer)