git-base-captioning-ft-hl-narrativesオープンソース画像記述モデル

ホーム

Git Base Captioning Ft Hl Narratives

michelecafagna26によって開発

このモデルはGITアーキテクチャに基づく画像記述生成モデルで、HL Narrativesデータセットでファインチューニングされており、高レベルの物語的画像記述を生成するために特別に設計されています。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #物語的な画像記述 #高レベル意味生成 #ソーシャルメディアコンテンツ作成

ダウンロード数 19

リリース時間 : 7/24/2023

モデル概要

このモデルは入力画像に基づいて物語性のある自然言語記述を生成でき、特に画像中の高レベルな意味やストーリー性のある内容を捉えるのに優れています。

モデル特徴

物語的記述生成

単純なオブジェクト認識だけでなく、ストーリー性と文脈認識を備えた画像記述を生成可能

高品質なファインチューニング

専門的なHL Narrativesデータセットでファインチューニングされており、生成記述の物語的品質が向上

効率的な推論

半精度(fp16)推論をサポートし、推論効率を向上

モデル能力

画像記述生成

物語的テキスト生成

視覚的コンテンツ理解

使用事例

ソーシャルメディア

自動画像記述

ソーシャルメディア画像にストーリー性のある記述を自動生成

'彼女はビーチでポーズをとって写真を撮り、ソーシャルメディアに投稿しようとしている'のような記述を生成

支援技術

視覚支援

視覚障害者により豊富な画像記述を提供

🚀 GIT-base ナラティブ画像キャプショニング用にファインチューニングされたモデル

GIT ベースのモデルを、HL Narratives で訓練し、高度なナラティブ記述の生成を行います。

🚀 クイックスタート

このモデルは、HL Narratives データセットを使用して、ナラティブ画像キャプショニングのためにファインチューニングされた GIT ベースのモデルです。以下のセクションでは、モデルのファインチューニングの詳細、テストセットのメトリクス、およびモデルの使用例を説明します。

✨ 主な機能

高度なナラティブ記述の生成：HL Narratives データセットを使用して訓練され、画像に対する高度なナラティブ記述を生成します。
高精度な評価指標：Cider、SacreBLEU、Rouge-L などの評価指標で高いスコアを達成しています。

🔧 技術詳細

モデルのファインチューニング 🏋️‍

エポック数：3エポックで訓練
学習率：5e−5
オプティマイザ：Adamオプティマイザ
精度：半精度 (fp16)

テストセットのメトリクス 🧾

Cider	SacreBLEU	Rouge-L
75.78	11.11	27.61

💻 使用例

基本的な使用法

import requests
from PIL import Image
from transformers import AutoProcessor, AutoModelForCausalLM

processor = AutoProcessor.from_pretrained("git-base-captioning-ft-hl-narratives")
model = AutoModelForCausalLM.from_pretrained("git-base-captioning-ft-hl-narratives").to("cuda")

img_url = 'https://datasets-server.huggingface.co/assets/michelecafagna26/hl/--/default/train/0/image/image.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')


inputs = processor(raw_image, return_tensors="pt").to("cuda")
pixel_values = inputs.pixel_values

generated_ids = model.generate(pixel_values=pixel_values, max_length=50,
            do_sample=True,
            top_k=120,
            top_p=0.9,
            early_stopping=True,
            num_return_sequences=1)

processor.batch_decode(generated_ids, skip_special_tokens=True)

>>> "she is posing for a photo on the beach, she wants to post on her social media."

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

BibTexと引用情報

@inproceedings{cafagna2023hl,
  title={{HL} {D}ataset: {V}isually-grounded {D}escription of {S}cenes, {A}ctions and
{R}ationales},
  author={Cafagna, Michele and van Deemter, Kees and Gatt, Albert},
  booktitle={Proceedings of the 16th International Natural Language Generation Conference (INLG'23)},
address = {Prague, Czech Republic},
  year={2023}
}