ColNomic Embed Multimodal 7Bオープンソースモデル - 多言語対応、効率的なビジュアルドキュメント検索

ホーム

Colnomic Embed Multimodal 7b

nomic-aiによって開発

ColNomic Embed Multimodal 7Bは、マルチベクトルの最先端マルチモーダル埋め込みモデルで、視覚文書検索タスクに優れ、多言語対応と統一テキスト画像エンコーディングをサポートします。

マルチモーダル融合

Safetensors

複数言語対応オープンソースライセンス:Apache-2.0 #マルチモーダル文書検索 #多言語視覚埋め込み #統一テキスト画像エンコーディング

ダウンロード数 7,909

リリース時間 : 3/31/2025

モデル概要

このモデルは70億パラメータのマルチモーダル埋め込みモデルで、視覚文書検索タスク向けに設計されており、複雑な前処理なしでテキストと画像を直接エンコードできます。

モデル特徴

高性能

Vidore-v2で62.7 NDCG@5を達成し、他のすべてのモデルを凌駕

統一テキスト画像エンコーディング

複雑な前処理なしでテキストと画像を直接エンコード

先進アーキテクチャ

70億パラメータのマルチモーダル埋め込みモデル

完全オープンソース

モデル重み、トレーニングデータ、コードを提供

多言語サポート

英語、イタリア語、フランス語、ドイツ語、スペイン語をサポート

モデル能力

視覚文書検索

マルチモーダル埋め込み

多言語埋め込み

テキストから視覚文書検索

使用事例

研究論文

数式、図表、表のキャプチャ

複雑な科学数式や図表を含む学術論文の検索に使用

検索精度向上

技術文書

コードブロック、フローチャート、スクリーンショットのエンコード

技術文書内のコード例やシステムアーキテクチャ図の検索に使用

より正確な技術コンテンツ検索

製品カタログ

製品画像検索

製品説明に基づいて関連製品画像を検索

eコマース体験向上

財務報告書

チャート、グラフ、数値データの埋め込み

財務報告書内の重要なデータ可視化の検索に使用

重要な財務指標の迅速な特定

🚀 ColNomic Embed Multimodal 7B: 最先端のビジュアルドキュメント検索

colnomic-embed-multimodal-7b は、マルチベクトルの最先端のマルチモーダル埋め込みモデルで、ビジュアルドキュメント検索タスクで優れた性能を発揮します。

高性能：Vidore-v2で62.7 NDCG@5を達成し、他のすべてのモデルを上回ります。
統一的なテキストと画像のエンコード：複雑な前処理なしで、テキストと画像を直接エンコードします。
高度なアーキテクチャ：70億パラメータのマルチモーダル埋め込みモデルです。
完全にオープンソース：モデルの重み、学習データ、コードが公開されています。

✨ 主な機能

モデル情報

プロパティ	詳細
ベースモデル	Qwen/Qwen2.5-VL-7B-Instruct
ライブラリ名	peft
データセット	llamaindex/vdr-multilingual-train、nomic-ai/colpali_train_set_split_by_source
言語	en、it、fr、de、es
パイプラインタグ	visual-document-retrieval
タグ	vidore、colpali、multimodal_embedding、multilingual_embedding、Text-to-Visual Document (T→VD) retrieval
ライセンス	apache-2.0

性能

モデル	平均	ESGレストラン（人間）	経済マクロ（マルチ）	AXA（マルチ）	MITバイオ	ESGレストラン（合成）	ESGレストラン（合成、マルチ）	MITバイオ（マルチ）	AXA	経済マクロ
ColNomic Embed Multimodal 7B	62.7	73.9	54.7	61.3	66.1	57.3	56.7	64.2	68.3	61.6
ColNomic Embed Multimodal 3B	61.2	65.8	55.4	61.0	63.5	56.6	57.2	62.5	68.8	60.2
T-Systems ColQwen2.5-3B	59.9	72.1	51.2	60.0	65.3	51.7	53.3	61.7	69.3	54.8
Nomic Embed Multimodal 7B	59.7	65.7	57.7	59.3	64.0	49.2	51.9	61.2	66.3	63.1
GME Qwen2 7B	59.0	65.8	56.2	55.4	64.0	54.3	56.7	55.1	60.7	62.9
Nomic Embed Multimodal 3B	58.8	59.8	57.5	58.8	62.5	49.4	49.4	58.6	69.6	63.5
Llama Index vdr-2b-multi-v1	58.4	63.1	52.8	61.0	60.6	50.3	51.2	56.9	68.8	61.2
Voyage Multimodal 3	55.0	56.1	55.0	59.5	56.4	47.2	46.2	51.5	64.1	58.8

📦 インストール

colnomic-embed-multimodal-7b を使用するには、ソースから colpali をインストールしてください。

pip install git+https://github.com/illuin-tech/colpali.git

💻 使用例

基本的な使用法

import torch
from PIL import Image
from transformers.utils.import_utils import is_flash_attn_2_available

from colpali_engine.models import ColQwen2_5, ColQwen2_5_Processor

model_name = "nomic-ai/colnomic-embed-multimodal-7b"

model = ColQwen2_5.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="cuda:0",  # or "mps" if on Apple Silicon
    attn_implementation="flash_attention_2" if is_flash_attn_2_available() else None,
).eval()

processor = ColQwen2_5_Processor.from_pretrained(model_name)

# Your inputs
images = [
    Image.new("RGB", (128, 128), color="white"),
    Image.new("RGB", (64, 32), color="black"),
]
queries = [
    "What is the organizational structure for our R&D department?",
    "Can you provide a breakdown of last year’s financial performance?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

📚 ドキュメント

モデルアーキテクチャ

総パラメータ数：70億
学習アプローチ：Qwen2.5-VL 7B Instruct からファインチューニング
アーキテクチャタイプ：テキストと画像の入力処理を統一したビジョン言語モデル
主要な革新点：
- 同じソースからのサンプリングにより、バッチ内の負例を難しくする
- パフォーマンス向上のためのマルチベクトル出力オプション

RAGワークフローとの統合

Nomic Embed Multimodal 7Bは、Retrieval Augmented Generation (RAG) ワークフローとシームレスに統合できます。

直接的なドキュメント埋め込み：OCRや複雑な処理をスキップして、ドキュメントのページ画像を直接埋め込む
高速な処理：前処理ステップを省略して、より速くインデックスを作成する
より完全な情報：単一の埋め込みでテキストとビジュアルの両方の手がかりをキャプチャする
簡単な実装：テキストと画像の両方に同じAPIを使用する

推奨使用例

このモデルは、従来のテキスト専用システムにとって難しい実世界のドキュメント検索シナリオをうまく処理できます。

研究論文：数式、図、表をキャプチャする
技術文書：コードブロック、フローチャート、スクリーンショットをエンコードする
製品カタログ：画像、仕様、価格表を表現する
財務報告：チャート、グラフ、数値データを埋め込む
視覚的に豊富なコンテンツ：レイアウトとビジュアル情報が重要な場合
多言語ドキュメント：ビジュアルコンテキストが重要な手がかりを提供する場合

学習詳細

ColNomic Embed Multimodal 7Bは、いくつかの重要な革新によって開発されました。

同じソースからのサンプリング：同じデータセットソースからのサンプリングを強制することで、バッチ内の負例を難しくし、モデルがデータセットのアーティファクトを学習するのを防ぎます。
マルチベクトル構成：密なバリアントよりも高いパフォーマンスを達成するマルチベクトルバリアントを提供します。

制限事項

非標準的なレイアウトや異常なビジュアル要素を持つドキュメントを処理する場合、パフォーマンスが異なる可能性があります。
複数の言語を処理できますが、英語のコンテンツで最も強いパフォーマンスを発揮します。
非常に大きなまたは複雑なドキュメントを処理する場合は、小さなチャンクに分割する必要があるかもしれません。
手書き文字や高度にスタイル化されたフォントのドキュメントでは、パフォーマンスが低下する可能性があります。

コミュニティへの参加

Nomic Embedエコシステム: https://www.nomic.ai/embed
ウェブサイト: https://nomic.ai
Twitter: https://twitter.com/nomic_ai
Discord: https://discord.gg/myY5YDR8z8

📄 ライセンス

このモデルは apache-2.0 ライセンスの下で提供されています。

引用

このモデルがあなたの研究やアプリケーションに役立った場合は、以下を引用してください。

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}
@misc{ma2024unifyingmultimodalretrievaldocument,
      title={Unifying Multimodal Retrieval via Document Screenshot Embedding}, 
      author={Xueguang Ma and Sheng-Chieh Lin and Minghan Li and Wenhu Chen and Jimmy Lin},
      year={2024},
      eprint={2406.11251},
      archivePrefix={arXiv},
      primaryClass={cs.IR},
      url={https://arxiv.org/abs/2406.11251}, 
}
@misc{nomicembedmultimodal2025,
  title={Nomic Embed Multimodal: Interleaved Text, Image, and Screenshots for Visual Document Retrieval},
  author={Nomic Team},
  year={2025},
  publisher={Nomic AI},
  url={https://nomic.ai/blog/posts/nomic-embed-multimodal},
}