blip-base-captioning-ft-hl-scenesオープンソース画像記述モデル

ホーム

Blip Base Captioning Ft Hl Scenes

michelecafagna26によって開発

このモデルはBLIPアーキテクチャに基づく画像キャプション生成モデルで、特にシーンの高レベル記述に特化してファインチューニングされています。

画像生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #シーン高レベル記述 #画像からテキストへの変換 #マルチモーダル生成

ダウンロード数 13

リリース時間 : 7/22/2023

モデル概要

このモデルはHLデータセットでファインチューニングされており、画像シーンの高レベル記述を生成でき、画像理解やコンテンツ分析タスクに適しています。

モデル特徴

シーン高レベル記述生成

画像シーンに対して高レベル記述を生成するように特化しており、複雑なシーンを理解して記述できます。

効率的なファインチューニング

HLデータセットで10エポックのファインチューニングを行い、学習率5e−5、Adamオプティマイザーと半精度トレーニングを使用しました。

多指標評価

テストセットでCider、SacreBLEU、Rouge-Lなどの複数の指標を使用して評価し、優れたパフォーマンスを示しました。

モデル能力

画像キャプション生成

シーン理解

高レベル意味解析

使用事例

画像コンテンツ分析

シーン記述生成

画像に対して高レベルなシーン記述を生成し、画像内容の理解を支援します。

生成される自然言語記述は正確で高レベルの意味を持ちます。

視覚障害者支援

画像内容記述

視覚障害者に対して画像内容の詳細な記述を提供します。

生成される記述はユーザーが画像内容を理解するのに役立ちます。

🚀 BLIP-base：高レベルシーン記述による画像キャプショニング用にファインチューニングされたモデル

BLIP ベースのモデルは、HLデータセットを使用して、画像のシーン生成 のために訓練されています。

🚀 クイックスタート

このセクションでは、モデルの概要と使用方法の基本を説明します。

✨ 主な機能

画像キャプショニング：高レベルなシーン記述を生成します。
高精度：特定のデータセットでファインチューニングされ、高い性能を発揮します。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration

processor = BlipProcessor.from_pretrained("michelecafagna26/blip-base-captioning-ft-hl-scenes")
model = BlipForConditionalGeneration.from_pretrained("michelecafagna26/blip-base-captioning-ft-hl-scenes").to("cuda")

img_url = 'https://datasets-server.huggingface.co/assets/michelecafagna26/hl/--/default/train/0/image/image.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')


inputs = processor(raw_image, return_tensors="pt").to("cuda")
pixel_values = inputs.pixel_values

generated_ids = model.generate(pixel_values=pixel_values, max_length=50,
            do_sample=True,
            top_k=120,
            top_p=0.9,
            early_stopping=True,
            num_return_sequences=1)

processor.batch_decode(generated_ids, skip_special_tokens=True)

>>> "the picture is taken near a lake."

🔧 技術詳細

モデルのファインチューニング 🏋️‍

訓練エポック数：10エポック
学習率：5e−5
オプティマイザ：Adamオプティマイザ
精度：半精度 (fp16)

テストセットのメトリクス 🧾

Cider	SacreBLEU	Rouge-L
116.70	26.46	35.30

📚 ドキュメント

BibTexと引用情報

@inproceedings{cafagna2023hl,
  title={{HL} {D}ataset: {V}isually-grounded {D}escription of {S}cenes, {A}ctions and
{R}ationales},
  author={Cafagna, Michele and van Deemter, Kees and Gatt, Albert},
  booktitle={Proceedings of the 16th International Natural Language Generation Conference (INLG'23)},
address = {Prague, Czech Republic},
  year={2023}
}