🚀 BLIP 画像キャプショニング - アラビア語 (Flickr8k アラビア語)
このモデルは、Salesforce/blip-image-captioning-large
をファインチューニングしたもので、Flickr8K アラビア語データセットを使用してアラビア語での画像キャプショニングに適応させています。入力画像を受け取り、画像の内容を説明する関連するアラビア語のキャプションを生成します。
🚀 クイックスタート
from transformers import BlipProcessor, BlipForConditionalGeneration
from PIL import Image
import torch
import matplotlib.pyplot as plt
processor = BlipProcessor.from_pretrained("omarsabri8756/blip-Arabic-flickr-8k")
model = BlipForConditionalGeneration.from_pretrained("omarsabri8756/blip-Arabic-flickr-8k")
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)
image_path = "path/to/your/image.jpg"
image = Image.open(image_path).convert("RGB")
plt.imshow(image)
plt.axis('off')
plt.title("入力画像")
plt.show()
model.eval()
with torch.no_grad():
pixel_values = processor(images=image, return_tensors="pt").pixel_values.to(device)
generated_output = model.generate(
pixel_values=pixel_values,
max_length=75,
min_length=20,
num_beams=5,
repetition_penalty=1.5,
length_penalty=1.0,
no_repeat_ngram_size=3,
early_stopping=True
)
caption = processor.batch_decode(generated_output, skip_special_tokens=True)[0]
print(caption)
✨ 主な機能
- 入力画像に対してアラビア語のキャプションを生成します。
- Flickr8K アラビア語データセットを使用してファインチューニングされています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
🔧 技術詳細
学習データ
このモデルは、8,000枚の画像とそれぞれ4つの参照アラビア語キャプションから構成される Flickr8k アラビア語データセットでファインチューニングされました。このデータセットは、現代標準アラビア語で記述された日常のシーンや活動の多様なコレクションを提供します。
プロパティ |
詳細 |
データセット |
Flickr8k アラビア語 |
サイズ |
8,000枚の画像と32,000個のキャプション |
学習手順
このモデルは、元の BLIP モデルからファインチューニングされ、言語生成機能をアラビア語テキストに適応させています。
学習ハイパーパラメータ
パラメータ |
値 |
学習方式 |
fp16 混合精度 |
オプティマイザー |
AdamW |
学習率 |
5e-5 |
per_device_train_batch_size |
2 |
per_device_eval_batch_size |
16 |
勾配累積ステップ |
14 |
総学習バッチサイズ |
28 |
エポック数 |
5 |
LR スケジューラー |
ウォームアップ付きコサイン |
重み減衰 |
0.01 |
📚 ドキュメント
テストデータと評価指標
テストデータ
このモデルは、それぞれ4つの参照キャプションを持つ1,000枚の画像を含む Flickr8k アラビア語のテスト分割で評価されました。
評価指標
指標 |
値 |
BLEU - 1 |
65.80 |
BLEU - 2 |
51.33 |
BLEU - 3 |
38.72 |
BLEU - 4 |
28.75 |
METEOR |
46.29 |
結果
このモデルは、一般的なシーンや活動で良好な性能を発揮し、文法的に正しく文脈的に適切なアラビア語のキャプションを生成します。ただし、学習データに十分に表されていない異常なシーンや文化的に特定のコンテキストでは、性能がやや低下します。
⚠️ バイアス、リスク、制限事項
- このモデルは Flickr8k アラビア語データセットで学習されており、アラビア語圏の画像や言語表現の全ての多様性を表現しているとは限りません。
- ステレオタイプや文化的に不適切な説明を生成する可能性があります。
- 異なるアラビア語の方言や地域表現では性能が異なる場合があります。
- 文化的に特定のアイテム、イベント、またはコンテキストを正しく説明する能力が限られています。
- 複雑なシーンや異常な視覚要素に対応するのが困難な場合があります。
💡 使用アドバイス
- ユーザーは、生成されたキャプションを敏感なコンテキストで使用する前に確認する必要があります。
- 公開向けのアプリケーションでは、ポストプロセッシングまたは人間によるレビューを検討してください。
- ユースケースに関連する多様な画像タイプでテストしてください。
- このモデルが学習データに含まれるバイアスを反映している可能性があることに注意してください。
- キャプションの品質を評価する際には、地域や方言の違いを考慮してください。
📄 ライセンス
このモデルは MIT ライセンスの下で提供されています。