git-base-on-diffuision-dataset2オープンソースの画像からテキスト生成モデル

ホーム

Git Base On Diffuision Dataset2

hieudinhproによって開発

microsoft/git-baseをdiffuision-dataset2データセットでファインチューニングした画像からテキスト生成モデル

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #スケッチからテキストへの変換 #画像説明生成 #GITファインチューニング

ダウンロード数 17

リリース時間 : 10/5/2023

モデル概要

このモデルはGIT（GenerativeImage2Text）アーキテクチャに基づく画像からテキスト生成モデルで、特にスケッチシーン画像のテキスト変換タスク向けにファインチューニングされています。

モデル特徴

画像からテキスト生成

入力画像を記述的なテキストに変換可能

Transformerアーキテクチャベース

先進的なTransformerアーキテクチャを使用して視覚と言語情報を処理

ファインチューニング最適化

特定のデータセットでファインチューニングされ、スケッチシーンの理解能力を最適化

モデル能力

画像理解

テキスト生成

スケッチシーン記述

使用事例

クリエイティブデザイン

スケッチ記述生成

デザイナーのスケッチに自動的にテキスト説明を生成

支援ツール

視覚支援

視覚障害者が画像内容を理解するのを支援

🚀 git-base-on-diffuision-dataset2

このモデルは、microsoft/git-base を hieudinhpro/diffuision-dataset2 データセットでファインチューニングしたバージョンです。画像をテキストに変換するタスクに特化しており、高い精度で画像の内容を文章で表現できます。

🚀 クイックスタート

このモデルは、microsoft/git-base を hieudinhpro/diffuision-dataset2 データセットでファインチューニングしたバージョンです。

✨ 主な機能

画像からテキストへの変換：Sketch Scene 画像をテキストに変換するタスクに特化しています。
事前学習モデルの活用：microsoft/git-base をベースにしているため、高い性能を発揮します。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

# Load model directly
from transformers import AutoProcessor, AutoModelForCausalLM

processor = AutoProcessor.from_pretrained("microsoft/git-base")
model = AutoModelForCausalLM.from_pretrained("hieudinhpro/git-base-on-diffuision-dataset2")

# load image
from PIL import Image

image = Image.open('/content/image_3.jpg')

# pre image
inputs = processor(images=image, return_tensors="pt")
pixel_values = inputs.pixel_values

# predict 
generated_ids = model.generate(pixel_values=pixel_values, max_length=50)

# decode to text
generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_caption)

📚 ドキュメント

学習ハイパーパラメータ

学習時に使用されたハイパーパラメータは以下の通りです。

属性	详情
学習率	2e-05
バッチサイズ	4
シード	42
勾配累積ステップ	2
オプティマイザ	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラ	線形
エポック数	1