🚀 granite-vision-3.3-2b-embedding
Granite-vision-3.3-2b-embeddingは、granite-vision-3.3-2bに基づく効率的な埋め込みモデルです。このモデルは、表、グラフ、インフォグラフィック、複雑なレイアウトを持つドキュメントに対するクエリを可能にするマルチモーダルドキュメント検索に特化して設計されています。モデルは、ページのColBERTスタイルのマルチベクトル表現を生成します。
OCRベースのテキスト抽出を不要にすることで、granite-vision-3.3-2b-embeddingはRAGパイプラインを簡素化し、高速化するのに役立ちます。
🚀 クイックスタート
このモデルを使用するには、まず必要なライブラリをインストールします。
pip install -q torch torchvision torchaudio
pip install transformers==4.50
次に、以下のコードを実行して、画像とテキストの類似度を計算します。
from io import BytesIO
import requests
import torch
from PIL import Image
from transformers import AutoProcessor, AutoModel
device = "cuda" if torch.cuda.is_available() else "cpu"
model_name = "ibm-granite/granite-vision-3.3-2b-embedding"
model = AutoModel.from_pretrained(model_name, trust_remote_code=True, torch_dtype=torch.float16).to(device).eval()
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
image_url = "https://huggingface.co/datasets/mishig/sample_images/resolve/main/tiger.jpg"
print("\nFetching image...")
image = Image.open(BytesIO(requests.get(image_url).content)).convert("RGB")
text = "A photo of a tiger"
print(f"Image and text inputs ready.")
print("Processing inputs...")
image_inputs = processor.process_images([image])
text_inputs = processor.process_queries([text])
image_inputs = {k: v.to(device) for k, v in image_inputs.items()}
text_inputs = {k: v.to(device) for k, v in text_inputs.items()}
with torch.no_grad():
print("🔍 Getting image embedding...")
img_emb = model(**image_inputs)
print("✍️ Getting text embedding...")
txt_emb = model(**text_inputs)
print("Scoring similarity...")
similarity = processor.score(txt_emb, img_emb, batch_size=1, device=device)
print("\n" + "=" * 50)
print(f"📊 Similarity between image and text: {similarity.item():.4f}")
print("=" * 50)
高度な使用法
granite-vision-3.3-2b-embeddingを使用したMM-RAGの例については、このノートブックを参照してください。
✨ 主な機能
- マルチモーダルドキュメント検索に特化した設計
- OCRベースのテキスト抽出を不要にすることで、RAGパイプラインを簡素化し、高速化
- ColBERTスタイルのマルチベクトル表現を生成
📦 インストール
pip install -q torch torchvision torchaudio
pip install transformers==4.50
📚 ドキュメント
評価
我々は、granite-vision-3.3-2b-embeddingを、1B - 4Bパラメータ範囲の他のトップのcolBERTスタイルのマルチモーダル埋め込みモデルとともに、2つのベンチマークを使用して評価しました。Vidore2とReal-MM-RAG-Benchは、複雑なマルチモーダルドキュメント検索タスクを特に対象としています。
NDCG@5 - ViDoRe V2
コレクション \ モデル |
ColPali-v1.3 |
ColQwen2.5-v0.2 |
ColNomic-3b |
ColSmolvlm-v0.1 |
granite-vision-3.3-2b-embedding |
ESG Restaurant Human |
51.1 |
68.4 |
65.8 |
62.4 |
62.3 |
Economics Macro Multilingual |
49.9 |
56.5 |
55.4 |
47.4 |
48.3 |
MIT Biomedical |
59.7 |
63.6 |
63.5 |
58.1 |
60.0 |
ESG Restaurant Synthetic |
57.0 |
57.4 |
56.6 |
51.1 |
54.0 |
ESG Restaurant Synthetic Multilingual |
55.7 |
57.4 |
57.2 |
47.6 |
53.5 |
MIT Biomedical Multilingual |
56.5 |
61.1 |
62.5 |
50.5 |
53.6 |
Economics Macro |
51.6 |
59.8 |
60.2 |
60.9 |
60.0 |
平均 (ViDoRe2) |
54.5 |
60.6 |
60.2 |
54.0 |
56.0 |
NDCG@5 - REAL-MM-RAG
コレクション \ モデル |
ColPali-v1.3 |
ColQwen2.5-v0.2 |
ColNomic-3b |
ColSmolvlm-v0.1 |
granite-vision-3.3-2b-embedding |
FinReport |
55 |
66 |
78 |
65 |
70 |
FinSlides |
68 |
79 |
81 |
55 |
74 |
TechReport |
78 |
86 |
88 |
83 |
84 |
TechSlides |
90 |
93 |
92 |
91 |
93 |
平均 (REAL-MM-RAG) |
73 |
81 |
85 |
74 |
80 |
モデルアーキテクチャ
granite-vision-3.3-2b-embeddingのアーキテクチャは、ColPali(https://arxiv.org/abs/2407.01449)のアプローチに従い、以下のコンポーネントで構成されています。
(1) ビジョン言語モデル : granite-vision-3.3-2b (https://huggingface.co/ibm-granite/granite-vision-3.3-2b)。
(2) 投影層: ビジョン言語モデルの隠れ層次元を128に投影し、画像ごとに729個の埋め込みベクトルを出力する線形層。
スコアリングは、MaxSimベースの遅延相互作用メカニズムを使用して計算されます。
学習データ
我々の学習データは、完全にDocFMから構成されています。DocFMは、Common Crawl、Wikipedia、およびESG(環境、社会、ガバナンス)レポートから取得した一意のPDFドキュメントから抽出された8500万のドキュメントページで構成される、IBMにおける大規模な包括的データセット取り組みです。
インフラストラクチャ
我々は、granite-vision-3.3-2b-embeddingを、NVIDIA A100 GPUを搭載したIBMの認知コンピューティングクラスタで学習させました。
倫理的考慮事項と制限事項
大規模ビジョン言語モデルの使用には、バイアスと公平性、誤情報、自律的な意思決定など、人々が認識しておく必要があるリスクと倫理的考慮事項が伴います。granite-vision-3.3-2b-embeddingもこの点で例外ではありません。我々のアライメントプロセスには安全上の考慮事項が含まれていますが、モデルは場合によっては不正確またはバイアスのある応答を生成する可能性があります。
倫理的な観点から、すべての大規模言語モデルに関連する潜在的なリスクは、悪意のある利用です。我々は、コミュニティに対して、granite-vision-3.3-2b-embeddingを倫理的な意図で責任を持って使用することを強く促します。
リソース
- 📄 Granite Vision技術レポート こちら
- 📄 Real-MM-RAG-Bench論文 (ACL 2025) こちら
- 📄 Vidore 2論文 こちら
- ⭐️ Graniteの最新の更新情報を学ぶ: https://www.ibm.com/granite
- 🚀 チュートリアル、ベストプラクティス、およびプロンプトエンジニアリングのアドバイスから始める: https://www.ibm.com/granite/docs/
- 💡 最新のGranite学習リソースを学ぶ: https://ibm.biz/granite-learning-resources
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。