japanese-instructblip-alphaオープンソース視覚言語モデル - 画像に無料で日本語の説明を生成する

ホーム

Japanese Instructblip Alpha

stabilityaiによって開発

入力画像とオプションの入力テキストに対して日本語の説明を生成できる視覚言語指示追従モデル

画像生成テキスト

Transformers

日本語オープンソースライセンス:その他 #日本語画像説明生成 #視覚言語指示追従 #マルチモーダルAI

ダウンロード数 141

リリース時間 : 8/15/2023

モデル概要

日本指令BLIP Alpha版は、指令BLIPアーキテクチャに基づく視覚言語モデルで、日本語に最適化されており、画像とテキストプロンプトに基づいて記述的な内容を生成できます。

モデル特徴

日本語最適化

日本語に特化して最適化されており、高品質な日本語説明を生成可能

マルチモーダル入力

画像とテキスト入力を同時に処理可能で、より柔軟なインタラクションを実現

指示追従

ユーザーの指示を理解し、それに従った出力を生成可能

軽量トレーニング

Q-Former部分のみをトレーニングし、視覚エンコーダーとLLMは凍結状態を維持

モデル能力

画像説明生成

視覚的質問応答

マルチモーダル理解

日本語テキスト生成

使用事例

コンテンツ生成

画像説明生成

入力画像に対して詳細な日本語説明を生成

例えば東京スカイツリーの写真を入力すると、'桜と東京スカイツリー'を出力

支援ツール

視覚的質問応答

画像内容に関する特定の質問に回答

🚀 日本語InstructBLIP Alpha

日本語InstructBLIP Alphaは、入力画像や質問などの入力テキストに対して日本語の説明を生成することができるビジョン言語モデルです。

🚀 クイックスタート

まず、requirements.txtに記載されている追加の依存関係をインストールします。

pip install sentencepiece einops

import torch
from transformers import LlamaTokenizer, AutoModelForVision2Seq, BlipImageProcessor
from PIL import Image
import requests

# helper function to format input prompts
def build_prompt(prompt="", sep="\n\n### "):
    sys_msg = "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"
    p = sys_msg
    roles = ["指示", "応答"]
    user_query = "与えられた画像について、詳細に述べてください。"
    msgs = [": \n" + user_query, ": "]
    if prompt:
        roles.insert(1, "入力")
        msgs.insert(1, ": \n" + prompt)
    for role, msg in zip(roles, msgs):
        p += sep + role + msg
    return p

# load model
model = AutoModelForVision2Seq.from_pretrained("stabilityai/japanese-instructblip-alpha", trust_remote_code=True)
processor = BlipImageProcessor.from_pretrained("stabilityai/japanese-instructblip-alpha")
tokenizer = LlamaTokenizer.from_pretrained("novelai/nerdstash-tokenizer-v1", additional_special_tokens=['▁▁'])
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

# prepare inputs
url = "https://images.unsplash.com/photo-1582538885592-e70a5d7ab3d3?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=1770&q=80"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
prompt = "" # input empty string for image captioning. You can also input questions as prompts 
prompt = build_prompt(prompt)
inputs = processor(images=image, return_tensors="pt")
text_encoding = tokenizer(prompt, add_special_tokens=False, return_tensors="pt")
text_encoding["qformer_input_ids"] = text_encoding["input_ids"].clone()
text_encoding["qformer_attention_mask"] = text_encoding["attention_mask"].clone()
inputs.update(text_encoding)

# generate
outputs = model.generate(
    **inputs.to(device, dtype=model.dtype),
    num_beams=5,
    max_new_tokens=32,
    min_length=1,
)
generated_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0].strip()
print(generated_text)
# 桜と東京スカイツリー

✨ 主な機能

日本語InstructBLIP Alphaは、入力画像や質問などの入力テキストに対して日本語の説明を生成することができます。

📦 インストール

まず、requirements.txtに記載されている追加の依存関係をインストールします。

pip install sentencepiece einops

💻 使用例

基本的な使用法

import torch
from transformers import LlamaTokenizer, AutoModelForVision2Seq, BlipImageProcessor
from PIL import Image
import requests

# helper function to format input prompts
def build_prompt(prompt="", sep="\n\n### "):
    sys_msg = "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"
    p = sys_msg
    roles = ["指示", "応答"]
    user_query = "与えられた画像について、詳細に述べてください。"
    msgs = [": \n" + user_query, ": "]
    if prompt:
        roles.insert(1, "入力")
        msgs.insert(1, ": \n" + prompt)
    for role, msg in zip(roles, msgs):
        p += sep + role + msg
    return p

# load model
model = AutoModelForVision2Seq.from_pretrained("stabilityai/japanese-instructblip-alpha", trust_remote_code=True)
processor = BlipImageProcessor.from_pretrained("stabilityai/japanese-instructblip-alpha")
tokenizer = LlamaTokenizer.from_pretrained("novelai/nerdstash-tokenizer-v1", additional_special_tokens=['▁▁'])
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

# prepare inputs
url = "https://images.unsplash.com/photo-1582538885592-e70a5d7ab3d3?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=1770&q=80"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
prompt = "" # input empty string for image captioning. You can also input questions as prompts 
prompt = build_prompt(prompt)
inputs = processor(images=image, return_tensors="pt")
text_encoding = tokenizer(prompt, add_special_tokens=False, return_tensors="pt")
text_encoding["qformer_input_ids"] = text_encoding["input_ids"].clone()
text_encoding["qformer_attention_mask"] = text_encoding["attention_mask"].clone()
inputs.update(text_encoding)

# generate
outputs = model.generate(
    **inputs.to(device, dtype=model.dtype),
    num_beams=5,
    max_new_tokens=32,
    min_length=1,
)
generated_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0].strip()
print(generated_text)
# 桜と東京スカイツリー

📚 ドキュメント

モデルの詳細

属性	详情
開発元	Stability AI
モデルタイプ	InstructBLIP
言語	日本語
ライセンス	JAPANESE STABLELM RESEARCH LICENSE AGREEMENT

学習

日本語InstructBLIP Alphaは、InstructBLIPアーキテクチャを利用しています。このモデルは3つのコンポーネントで構成されています：凍結されたビジョン画像エンコーダ、Q-Former、および凍結された大規模言語モデル（LLM）。ビジョンエンコーダとQ-Formerは、Salesforce/instructblip-vicuna-7bで初期化されました。凍結されたLLMには、Japanese-StableLM-Instruct-Alpha-7Bモデルが使用されました。学習中は、Q-Formerのみが学習されました。

学習データセット

学習データセットには、以下の公開データセットが含まれています：

CC12M （キャプションは日本語に翻訳されています）
MS-COCO （STAIR Captions付き）
Japanese Visual Genome VQA dataset

使用目的と制限

使用目的

このモデルは、研究ライセンスに準拠したチャットアプリケーションでオープンソースコミュニティによって使用されることを目的としています。

制限とバイアス

前述のデータセットは、基本的な言語モデルを「より安全な」テキスト分布に導くのに役立ちますが、微調整を通じてすべてのバイアスと毒性を軽減することはできません。ユーザーは、生成された応答に生じる可能性のあるこのような潜在的な問題に留意するようお願いします。モデルの出力を人間の判断の代替物や真実の源として扱わないでください。責任を持って使用してください。

引用方法

@misc{JapaneseInstructBLIPAlpha, 
    url    = {[https:

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご