FuseCapオープンソース画像記述フレームワーク - 無料で大規模モデルを使って意味豊かな画像記述を生成

ホーム

Fusecap Image Captioning

noamrotによって開発

FuseCapは、意味的に豊かな画像説明を生成するために設計されたフレームワークで、大規模言語モデルを活用して画像説明を融合生成します。

画像生成テキスト

Transformers

オープンソースライセンス:MIT #画像説明生成 #意味的に豊かな説明 #LLM強化

ダウンロード数 2,771

リリース時間 : 5/31/2023

モデル概要

FuseCapは、意味的に豊かな画像説明を生成するための画像からテキストへのモデルです。大規模言語モデルの能力を融合することで、より詳細で正確な画像説明を提供します。

モデル特徴

意味的に豊かな画像説明

大規模言語モデルを利用して、より詳細で正確な画像説明を生成します。

融合説明

複数の説明ソースを融合することで、より包括的な画像説明を生成します。

BLIPアーキテクチャベース

BLIPアーキテクチャを使用してトレーニングと推論を行い、モデルの効率性と正確性を確保します。

モデル能力

画像説明生成

意味的に豊かなテキスト出力

マルチモーダル融合

使用事例

画像理解

自動画像タグ付け

画像に対して詳細な説明を生成し、自動タグ付けや分類に使用します。

意味的に豊かな説明を生成し、タグ付けの品質を向上させます。

視覚障害者支援

視覚障害者に対して詳細な画像説明を提供し、画像内容の理解を助けます。

より正確で詳細な画像説明を提供し、ユーザー体験を向上させます。

🚀 FuseCap: 拡張された融合画像キャプションのための大規模言語モデルの活用

意味的に豊かな画像キャプションを生成するために設計されたフレームワークです。

🚀 クイックスタート

リソース

💻 プロジェクトページ：詳細については、公式のプロジェクトページをご覧ください。
📝 論文を読む：論文はこちらで見つけることができます。
🚀 デモ：FuseCapを使用して学習させたBLIPベースのモデルのデモを試してみてください。
📂 コードリポジトリ：FuseCapのコードはGitHubリポジトリで見つけることができます。
🗃️ データセット：融合キャプションのデータセットはこちらからアクセスできます。

モデルの実行

以下のコードを使用して、BLIPベースのモデルを実行できます。

💻 使用例

基本的な使用法

import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration
import torch

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
processor = BlipProcessor.from_pretrained("noamrot/FuseCap")
model = BlipForConditionalGeneration.from_pretrained("noamrot/FuseCap").to(device)

img_url = 'https://huggingface.co/spaces/noamrot/FuseCap/resolve/main/bike.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

text = "a picture of "
inputs = processor(raw_image, text, return_tensors="pt").to(device)

out = model.generate(**inputs, num_beams = 3)
print(processor.decode(out[0], skip_special_tokens=True))

🔜 今後のアップデート

このプロジェクトの公式コードベース、データセット、および学習済みモデルは近日公開予定です。

📚 ドキュメント

BibTeX

@inproceedings{rotstein2024fusecap,
  title={Fusecap: Leveraging large language models for enriched fused image captions},
  author={Rotstein, Noam and Bensa{\"\i}d, David and Brody, Shaked and Ganz, Roy and Kimmel, Ron},
  booktitle={Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision},
  pages={5689--5700},
  year={2024}
}