idefics-9bオープンソース多モーダルモデル - 画像とテキストを無料で処理し、テキスト内容を生成

ホーム

Idefics 9b

HuggingFaceM4によって開発

IDEFICSはオープンソースのマルチモーダルモデルで、画像とテキスト入力を処理しテキスト出力を生成できます。Deepmind Flamingoモデルのオープンソース再現版です。

画像生成テキスト

Transformers

英語オープンソースライセンス:その他 #マルチモーダルQA #画像テキスト生成 #少数ショット学習

ダウンロード数 3,676

リリース時間 : 7/11/2023

モデル概要

IDEFICSは大規模なマルチモーダル英語モデルで、画像とテキストの交互シーケンスを入力として受け取り、テキスト出力を生成します。このモデルは強力なコンテキスト少数ショット学習能力を示し、視覚的質問応答や画像キャプション生成などのタスクに使用できます。

モデル特徴

マルチモーダル処理能力

画像とテキスト入力を同時に処理し、両者の関係を理解して関連するテキスト出力を生成できる

オープンソース再現

Deepmind Flamingoモデルのオープンソース再現版として、完全に公開可能なデータとモデルで構築されている

少数ショット学習

強力なコンテキスト少数ショット学習能力を示し、オリジナルのクローズドソースモデルと同等の性能を発揮する

モデル能力

画像理解

視覚的質問応答

画像キャプション生成

マルチモーダルストーリー作成

テキスト生成

使用事例

視覚コンテンツ理解

画像キャプション

入力画像に対して詳細な文章説明を生成する

画像内容を正確に反映した自然言語記述を生成

視覚的質問応答

画像内容に関する自然言語質問に回答する

画像内容に関連した正確な回答を提供

クリエイティブコンテンツ生成

複数画像ストーリー作成

複数の入力画像に基づいて一貫性のあるストーリーを作成する

創造性に富んだ一貫性のあるナラティブを生成

🚀 IDEFICS

モデル名の発音方法は、Youtubeチュートリアルをご覧ください。

IDEFICS（Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS）は、Deepmindによって開発された閉ソースの視覚言語モデルであるFlamingoのオープンアクセスな再現モデルです。GPT-4と同様に、このマルチモーダルモデルは画像とテキストの任意のシーケンスを入力として受け取り、テキスト出力を生成します。IDEFICSは、公開されているデータとモデルのみを使用して構築されています。

このモデルは、画像に関する質問に答えたり、視覚的な内容を説明したり、複数の画像を基に物語を作成したり、あるいは単に視覚入力なしで純粋な言語モデルとして機能することができます。

IDEFICSは、コンテキスト内のフェデレーション学習で評価した場合、視覚的質問応答（自由記述型および選択肢型）、画像キャプション、画像分類などの様々な画像 - テキストベンチマークで、元の閉ソースモデルと同等の性能を発揮します。このモデルには、800億パラメータの大規模バージョンと、90億パラメータのバージョンの2種類があります。

また、教師付き微調整データセットと命令微調整データセットの混合データでベースモデルを微調整しています。これにより、下流タスクの性能が向上し、会話設定でのモデルの使い勝手が向上します。具体的には、idefics-80b-instructとidefics-9b-instructです。これらの命令微調整モデルは性能が高いため、最初にこれらのバージョンを使用することをおすすめします。

IDEFICSのトレーニング中に遭遇した技術的な課題の詳細については、こちらをご覧ください。

デモを試してみてください！

🚀 クイックスタート

モデルの概要

IDEFICSは、画像とテキストのシーケンスを入力として受け取り、テキスト出力を生成する大規模なマルチモーダル英語モデルです。このモデルは、コンテキスト内のフェデレーション学習能力が強く、閉ソースモデルと同等の性能を発揮します。このため、IDEFICSは、カスタムデータでマルチモーダルモデルを微調整するための堅牢な出発点となります。

モデルの使い方

このモデルは、テキストクエリ/命令と1つまたは複数の画像から構成される入力を持つマルチモーダル（画像 + テキスト）タスクの推論に使用できます。ただし、画像生成はサポートしていません。

特定のユースケースのために、ベースモデルをカスタムデータで微調整することも可能です。命令微調整されたモデルは、ユーザーからの命令に従う能力が大幅に向上しているため、モデルをそのまま使用する場合は、これらのモデルを優先して使用することをおすすめします。

コード例

これらのリソースでは、IDEFICSを使用した推論（4ビット量子化推論を含む）とモデルの微調整方法を紹介しています。特に、このコラボノートブックでは、LoRAと4ビット量子化を使用して、単一のGoogle Colab GPUで90億パラメータのモデルを微調整する方法を示しています。

以下に、ベースモデルと命令微調整モデルのクイックスタートコードを提供します。

ベースモデルのクイックスタート

import torch
from transformers import IdeficsForVisionText2Text, AutoProcessor

device = "cuda" if torch.cuda.is_available() else "cpu"

checkpoint = "HuggingFaceM4/idefics-9b"
model = IdeficsForVisionText2Text.from_pretrained(checkpoint, torch_dtype=torch.bfloat16).to(device)
processor = AutoProcessor.from_pretrained(checkpoint)

# We feed to the model an arbitrary sequence of text strings and images. Images can be either URLs or PIL Images.
prompts = [
    [
        "https://upload.wikimedia.org/wikipedia/commons/8/86/Id%C3%A9fix.JPG",
        "In this picture from Asterix and Obelix, we can see"
    ],
]

# --batched mode
inputs = processor(prompts, return_tensors="pt").to(device)
# --single sample mode
# inputs = processor(prompts[0], return_tensors="pt").to(device)

# Generation args
bad_words_ids = processor.tokenizer(["<image>", "<fake_token_around_image>"], add_special_tokens=False).input_ids

generated_ids = model.generate(**inputs, bad_words_ids=bad_words_ids, max_length=100)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)
for i, t in enumerate(generated_text):
    print(f"{i}:\n{t}\n")

巨大なモデルのダウンロード/ロードを待たずにソフトウェアをすぐにテストするには、HuggingFaceM4/tiny-random-ideficsを使用できます。このモデルは学習されておらず、重みがランダムですが、迅速なテストに非常に便利です。

命令微調整モデルのクイックスタート

import torch
from transformers import IdeficsForVisionText2Text, AutoProcessor

device = "cuda" if torch.cuda.is_available() else "cpu"

checkpoint = "HuggingFaceM4/idefics-9b-instruct"
model = IdeficsForVisionText2Text.from_pretrained(checkpoint, torch_dtype=torch.bfloat16).to(device)
processor = AutoProcessor.from_pretrained(checkpoint)

# We feed to the model an arbitrary sequence of text strings and images. Images can be either URLs or PIL Images.
prompts = [
    [
        "User: What is in this image?",
        "https://upload.wikimedia.org/wikipedia/commons/8/86/Id%C3%A9fix.JPG",
        "<end_of_utterance>",

        "\nAssistant: This picture depicts Idefix, the dog of Obelix in Asterix and Obelix. Idefix is running on the ground.<end_of_utterance>",

        "\nUser:",
        "https://static.wikia.nocookie.net/asterix/images/2/25/R22b.gif/revision/latest?cb=20110815073052",
        "And who is that?<end_of_utterance>",

        "\nAssistant:",
    ],
]

# --batched mode
inputs = processor(prompts, add_end_of_utterance_token=False, return_tensors="pt").to(device)
# --single sample mode
# inputs = processor(prompts[0], return_tensors="pt").to(device)

# Generation args
exit_condition = processor.tokenizer("<end_of_utterance>", add_special_tokens=False).input_ids
bad_words_ids = processor.tokenizer(["<image>", "<fake_token_around_image>"], add_special_tokens=False).input_ids

generated_ids = model.generate(**inputs, eos_token_id=exit_condition, bad_words_ids=bad_words_ids, max_length=100)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)
for i, t in enumerate(generated_text):
    print(f"{i}:\n{t}\n")

テキスト生成推論

ホストされている推論APIは、Text Generation Inferenceによって提供されています。モデルにクエリを送信するには、次のコードスニペットを使用できます。重要なのは、画像をMarkdown構文で取得可能なURLとして渡すことです。

from text_generation import Client

API_TOKEN = "<YOUR_API_TOKEN>"
API_URL = "https://api-inference.huggingface.co/models/HuggingFaceM4/idefics-80b-instruct"
DECODING_STRATEGY = "Greedy"
QUERY = "User: What is in this image?![](https://upload.wikimedia.org/wikipedia/commons/8/86/Id%C3%A9fix.JPG)<end_of_utterance>\nAssistant:"

client = Client(
    base_url=API_URL,
    headers={"x-use-cache": "0", "Authorization": f"Bearer {API_TOKEN}"},
)
generation_args = {
    "max_new_tokens": 256,
    "repetition_penalty": 1.0,
    "stop_sequences": ["<end_of_utterance>", "\nUser:"],
}

if DECODING_STRATEGY == "Greedy":
    generation_args["do_sample"] = False
elif DECODING_STRATEGY == "Top P Sampling":
    generation_args["temperature"] = 1.
    generation_args["do_sample"] = True
    generation_args["top_p"] = 0.95
    
generated_text = client.generate(prompt=QUERY, **generation_args)  
print(generated_text)

現在、命令微調整されたモデルの推論のみをホストしています。

✨ 主な機能

画像に関する質問に答えることができます。
視覚的な内容を説明することができます。
複数の画像を基に物語を作成することができます。
視覚入力なしで純粋な言語モデルとして機能することができます。
コンテキスト内のフェデレーション学習能力が強く、閉ソースモデルと同等の性能を発揮します。

📚 ドキュメント

モデルの詳細

属性	详情
開発元	Hugging Face
モデルタイプ	マルチモーダルモデル（画像+テキスト）
言語	英語
ライセンス	ライセンスセクションを参照
親モデル	laion/CLIP-ViT-H-14-laion2B-s32B-b79K と huggyllama/llama-65b
詳細情報のリソース	- OBELICSの説明: OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents - 元論文: Flamingo: a Visual Language Model for Few-Shot Learning

トレーニングの詳細

IDEFICS

Flamingoで示されたトレーニング手順に従い、2つのオープンアクセスの事前学習モデル（laion/CLIP-ViT-H-14-laion2B-s32B-b79Kとhuggyllama/llama-65b）を新しいTransformerブロックで組み合わせました。事前学習されたバックボーンは凍結し、新しく初期化されたパラメータを学習します。

モデルは、以下の公開された英語データの混合データでトレーニングされています。

データソース	データの種類	ソース内のトークン数	ソース内の画像数	エポック数	トークン数の有効割合
OBELICS	非構造化マルチモーダルウェブドキュメント	1149億	3億5300万	1	73.85%
Wikipedia	非構造化マルチモーダルウェブドキュメント	31.92億	3900万	3	6.15%
LAION	画像 - テキストペア	299億	11.2億	1	17.18%
PMD	画像 - テキストペア	16億	7000万	3	2.82%

OBELICSは、画像とテキストが交互に配置されたウェブドキュメントのオープンで大規模なコレクションで、1億4100万のドキュメント、1150億のテキストトークン、3億5300万の画像を含んでいます。データセットの内容のインタラクティブなビジュアライゼーションは、こちらで確認できます。2020年2月から2023年2月までのCommon Crawlダンプを使用しています。

Wikipediaは、2023年2月20日に作成された英語版のWikipediaダンプを使用しています。

LAIONは、Common Crawlのウェブページから収集された画像 - テキストペアのコレクションで、テキストは各画像の代替テキストを使用して取得されています。Webster et al., 2023に従って重複を削除し、フィルタリングし、Spawning APIを使用してオプトアウトされた画像を削除しています。

PMDは、公開されている画像 - テキストペアデータセットのコレクションです。このデータセットには、Conceptual Captions、Conceptual Captions 12M、WIT、Localized Narratives、RedCaps、COCO、SBU Captions、Visual Genome、およびYFCC100Mデータセットのサブセットのペアが含まれています。前処理時のサーバー障害のため、SBUキャプションは含まれていません。

マルチモーダルウェブドキュメントの場合、モデルにはテキスト段落と画像の連続に対応するシーケンスを入力します。画像 - テキストペアの場合、画像とそのキャプションをパッキングしてトレーニングシーケンスを形成します。画像は視覚エンコーダでエンコードされ、視覚隠れ状態はTransformer Perceiverブロックでプールされ、クロスアテンションブロックを介してテキストシーケンスに融合されます。

Dehghani et al., 2023に従い、Perceiverブロックとクロスアテンションブロックの投影クエリとキーにレイヤー正規化を適用しました。これにより、初期の実験でトレーニングの安定性が向上しました。学習可能なレイヤー正規化には、RMSNormの実装を使用しています。

トレーニングの目的は、標準的な次のトークン予測です。

使用したハイパーパラメータとトレーニングパラメータは以下の通りです。

パラメータ		IDEFICS-80b	IDEFICS-9b
Perceiver Resampler	レイヤー数	6	6
	潜在数	64	64
	ヘッド数	16	16
	リサンプラーヘッド次元	96	96
モデル	言語モデルバックボーン	Llama-65b	Llama-7b
	視覚モデルバックボーン	laion/CLIP-ViT-H-14-laion2B-s32B-b79K	laion/CLIP-ViT-H-14-laion2B-s32B-b79K
	クロスレイヤー間隔	4	4
トレーニング	シーケンス長	1024	1024
	有効バッチサイズ（トークン数）	367万	131万
	最大トレーニングステップ	20万	20万
	重み減衰	0.1	0.1
	オプティマイザ	Adam(0.9, 0.999)	Adam(0.9, 0.999)
	勾配クリッピング	1.0	1.0
	Z-lossの重み	1e-3	1e-3
学習率	初期最大	5e-5	1e-5
	初期最終	3e-5	6e-6
	減衰スケジュール	線形	線形
	線形ウォームアップステップ	2000	2000
大規模最適化	勾配チェックポインティング	True	True
	精度	混合精度bf16	混合精度bf16
	ZeRO最適化	ステージ3	ステージ3