RGB言語キャパビリティ（rgb_language_cap）オープンソースのビジュアル言語モデル

ホーム

Rgb Language Cap

voxrealityによって開発

これはCOCOデータセットで訓練された視覚言語モデルで、画像内のエンティティ間の空間関係を含む記述テキストを生成できます。

画像生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #空間関係の記述 #ViT-GPT2アーキテクチャ #複数文の画像記述

ダウンロード数 24

リリース時間 : 9/3/2024

モデル概要

このモデルはViTエンコーダーとGPT2デコーダーのシーケンス・ツー・シーケンスアーキテクチャを採用し、画像記述生成のために特別に設計されており、出力には常に物体間の空間方位関係が含まれます。

モデル特徴

空間関係認識

生成される記述テキストには物体間の空間方位関係（例：'左側に位置する'）が明示的に記載されます

出力長の制御

パラメータを介して生成記述の最大文数を制御可能（最大5文）

軽量なデプロイ

わずか4GBのGPUメモリで動作可能

モデル能力

画像記述生成

空間関係認識

複数文のテキスト生成

使用事例

支援技術

視覚障害者支援

視覚障害を持つユーザー向けに空間関係を含む環境記述を生成

ユーザーが物体間の相対位置を理解するのを支援

コンテンツ生成

自動画像タグ付け

画像ライブラリ向けに空間情報を含むメタデータを生成

画像検索の精度向上

🚀 空間認識型ビジョン言語（VL）モデル

このモデルは、画像内のエンティティ間の空間関係に関する追加情報を含むCOCOデータセットの画像で学習された、画像キャプショニング用のシーケンス-to-シーケンスモデルです。アーキテクチャは、ViTエンコーダとGPT2デコーダで構成されています。

🚀 クイックスタート

必要条件

4GBのGPU RAM
CUDA対応のDocker

モデルのダウンロードと実行方法

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
from transformers import pipeline
image_captioner = pipeline("image-to-text", model="voxreality/rgb-language_cap", max_new_tokens=200, device=device)
filename = 'path/to/file'
generated_captions = image_captioner(filename)
print(generated_captions)

このモデルは、最大200トークンで可能な限り多くの単語を生成するように学習されており、これはおおよそ5文に相当し、6文目は通常切り捨てられます。

出力は常に「Object1」は「Object2」の「左/右など」にある、という形式になります。

💻 使用例

基本的な使用法

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
from transformers import pipeline
image_captioner = pipeline("image-to-text", model="voxreality/rgb-language_cap", max_new_tokens=200, device=device)
filename = 'path/to/file'
generated_captions = image_captioner(filename)
print(generated_captions)

高度な使用法

最大5つのキャプションを生成する場合

import os
def print_up_to_n_sentences(captions, n):
    for caption in captions:
        generated_text = caption.get('generated_text', '')
        sentences = generated_text.split('.')
        result = '.'.join(sentences[:n])
        #print(result)
    return result
filename = 'path/to/file'

generated_captions = image_captioner(filename)
captions = print_up_to_n_sentences(generated_captions, 5)
print(captions)