granite-vision-3.3-2b-embeddingオープンソースモデル - マルチモーダル文書検索に使用し、複雑なレイアウトの資料を処理可能

ホーム

Granite Vision 3.3 2b Embedding

ibm-graniteによって開発

granite-vision-3.3-2bをベースに構築された効率的な埋め込みモデルで、マルチモーダル文書検索用に設計されており、表、グラフ、インフォグラフィック、複雑なレイアウトを含む文書を処理できます。

マルチモーダル融合

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチモーダル文書検索 #ColBERTスタイルの埋め込み #OCR不要処理

ダウンロード数 205

リリース時間 : 6/3/2025

モデル概要

このモデルはColBERTスタイルの多ベクトルページ表現を生成し、OCRに基づくテキスト抽出を必要とせず、RAGパイプラインを簡素化および高速化できます。

モデル特徴

マルチモーダル文書処理

表、グラフ、インフォグラフィック、複雑なレイアウトを含む文書を処理できます。

ColBERTスタイル表現

ページのColBERTスタイルの多ベクトル表現を生成し、検索効率を向上させます。

OCR不要

OCRに基づくテキスト抽出を必要とせず、RAGパイプラインを簡素化します。

効率的な検索

マルチモーダル文書検索の高速化を目的として最適化されています。

モデル能力

マルチモーダル文書埋め込み

画像 - テキスト類似度計算

複雑なレイアウト文書処理

クロスモーダル検索

使用事例

文書検索

財務報告検索

表やグラフを含む財務報告から関連情報を検索します。

FinReportデータセットでNDCG@5が70に達します。

技術文書検索

技術報告書やスライドから特定の情報を検索します。

TechReportおよびTechSlidesデータセットでNDCG@5がそれぞれ84と93に達します。

クロスモーダル検索

画像 - テキストマッチング

画像とテキスト記述の類似度を計算します。

🚀 granite-vision-3.3-2b-embedding

Granite-vision-3.3-2b-embeddingは、granite-vision-3.3-2bに基づく効率的な埋め込みモデルです。このモデルは、表、グラフ、インフォグラフィック、複雑なレイアウトを持つドキュメントに対するクエリを可能にするマルチモーダルドキュメント検索に特化して設計されています。モデルは、ページのColBERTスタイルのマルチベクトル表現を生成します。 OCRベースのテキスト抽出を不要にすることで、granite-vision-3.3-2b-embeddingはRAGパイプラインを簡素化し、高速化するのに役立ちます。

🚀 クイックスタート

このモデルを使用するには、まず必要なライブラリをインストールします。

pip install -q torch torchvision torchaudio
pip install transformers==4.50

次に、以下のコードを実行して、画像とテキストの類似度を計算します。

from io import BytesIO

import requests
import torch
from PIL import Image
from transformers import AutoProcessor, AutoModel

device = "cuda" if torch.cuda.is_available() else "cpu"
model_name = "ibm-granite/granite-vision-3.3-2b-embedding"
model = AutoModel.from_pretrained(model_name, trust_remote_code=True, torch_dtype=torch.float16).to(device).eval()
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)

# ─────────────────────────────────────────────
# Inputs: Image + Text
# ─────────────────────────────────────────────
image_url = "https://huggingface.co/datasets/mishig/sample_images/resolve/main/tiger.jpg"
print("\nFetching image...")
image = Image.open(BytesIO(requests.get(image_url).content)).convert("RGB")

text = "A photo of a tiger"
print(f"Image and text inputs ready.")

# Process both inputs
print("Processing inputs...")
image_inputs = processor.process_images([image])
text_inputs = processor.process_queries([text])

# Move to correct device
image_inputs = {k: v.to(device) for k, v in image_inputs.items()}
text_inputs = {k: v.to(device) for k, v in text_inputs.items()}

# ─────────────────────────────────────────────
# Run Inference
# ─────────────────────────────────────────────
with torch.no_grad():
    print("🔍 Getting image embedding...")
    img_emb = model(**image_inputs)

    print("✍️ Getting text embedding...")
    txt_emb = model(**text_inputs)

# ─────────────────────────────────────────────
# Score the similarity
# ─────────────────────────────────────────────
print("Scoring similarity...")
similarity = processor.score(txt_emb, img_emb, batch_size=1, device=device)

print("\n" + "=" * 50)
print(f"📊 Similarity between image and text: {similarity.item():.4f}")
print("=" * 50)

高度な使用法

granite-vision-3.3-2b-embeddingを使用したMM-RAGの例については、このノートブックを参照してください。

✨ 主な機能

マルチモーダルドキュメント検索に特化した設計
OCRベースのテキスト抽出を不要にすることで、RAGパイプラインを簡素化し、高速化
ColBERTスタイルのマルチベクトル表現を生成

📦 インストール

pip install -q torch torchvision torchaudio
pip install transformers==4.50

📚 ドキュメント

評価

我々は、granite-vision-3.3-2b-embeddingを、1B - 4Bパラメータ範囲の他のトップのcolBERTスタイルのマルチモーダル埋め込みモデルとともに、2つのベンチマークを使用して評価しました。Vidore2とReal-MM-RAG-Benchは、複雑なマルチモーダルドキュメント検索タスクを特に対象としています。

NDCG@5 - ViDoRe V2

コレクション \ モデル	ColPali-v1.3	ColQwen2.5-v0.2	ColNomic-3b	ColSmolvlm-v0.1	granite-vision-3.3-2b-embedding
ESG Restaurant Human	51.1	68.4	65.8	62.4	62.3
Economics Macro Multilingual	49.9	56.5	55.4	47.4	48.3
MIT Biomedical	59.7	63.6	63.5	58.1	60.0
ESG Restaurant Synthetic	57.0	57.4	56.6	51.1	54.0
ESG Restaurant Synthetic Multilingual	55.7	57.4	57.2	47.6	53.5
MIT Biomedical Multilingual	56.5	61.1	62.5	50.5	53.6
Economics Macro	51.6	59.8	60.2	60.9	60.0
平均 (ViDoRe2)	54.5	60.6	60.2	54.0	56.0

NDCG@5 - REAL-MM-RAG

コレクション \ モデル	ColPali-v1.3	ColQwen2.5-v0.2	ColNomic-3b	ColSmolvlm-v0.1	granite-vision-3.3-2b-embedding
FinReport	55	66	78	65	70
FinSlides	68	79	81	55	74
TechReport	78	86	88	83	84
TechSlides	90	93	92	91	93
平均 (REAL-MM-RAG)	73	81	85	74	80

モデルアーキテクチャ

granite-vision-3.3-2b-embeddingのアーキテクチャは、ColPali(https://arxiv.org/abs/2407.01449)のアプローチに従い、以下のコンポーネントで構成されています。

(1) ビジョン言語モデル : granite-vision-3.3-2b (https://huggingface.co/ibm-granite/granite-vision-3.3-2b)。

(2) 投影層: ビジョン言語モデルの隠れ層次元を128に投影し、画像ごとに729個の埋め込みベクトルを出力する線形層。

スコアリングは、MaxSimベースの遅延相互作用メカニズムを使用して計算されます。

学習データ

我々の学習データは、完全にDocFMから構成されています。DocFMは、Common Crawl、Wikipedia、およびESG（環境、社会、ガバナンス）レポートから取得した一意のPDFドキュメントから抽出された8500万のドキュメントページで構成される、IBMにおける大規模な包括的データセット取り組みです。

インフラストラクチャ

我々は、granite-vision-3.3-2b-embeddingを、NVIDIA A100 GPUを搭載したIBMの認知コンピューティングクラスタで学習させました。

倫理的考慮事項と制限事項

大規模ビジョン言語モデルの使用には、バイアスと公平性、誤情報、自律的な意思決定など、人々が認識しておく必要があるリスクと倫理的考慮事項が伴います。granite-vision-3.3-2b-embeddingもこの点で例外ではありません。我々のアライメントプロセスには安全上の考慮事項が含まれていますが、モデルは場合によっては不正確またはバイアスのある応答を生成する可能性があります。倫理的な観点から、すべての大規模言語モデルに関連する潜在的なリスクは、悪意のある利用です。我々は、コミュニティに対して、granite-vision-3.3-2b-embeddingを倫理的な意図で責任を持って使用することを強く促します。

リソース

📄 Granite Vision技術レポートこちら
📄 Real-MM-RAG-Bench論文 (ACL 2025) こちら
📄 Vidore 2論文こちら
⭐️ Graniteの最新の更新情報を学ぶ: https://www.ibm.com/granite
🚀 チュートリアル、ベストプラクティス、およびプロンプトエンジニアリングのアドバイスから始める: https://www.ibm.com/granite/docs/
💡 最新のGranite学習リソースを学ぶ: https://ibm.biz/granite-learning-resources