Nomic Embed Multimodal 3Bオープンソースモデル - 無料でデプロイ可能、ビジュアルドキュメントの効率的な検索をサポート！

Nomic Embed Multimodal 3b

nomic-aiによって開発

Nomic Embed Multimodal 3Bは最先端のマルチモーダル埋め込みモデルで、視覚文書検索タスクに特化しており、統一テキスト-画像エンコーディングをサポートし、Vidore-v2テストで58.8 NDCG@5という卓越した性能を達成しました。

テキスト生成画像

Safetensors

複数言語対応#視覚文書検索 #マルチモーダル埋め込み #多言語サポート

ダウンロード数 3,431

リリース時間 : 3/27/2025

モデル概要

これは30億パラメータのマルチモーダル埋め込みモデルで、視覚文書検索タスクの処理に優れており、複雑な前処理なしで交互に配置されたテキストと画像を直接エンコードできます。

モデル特徴

卓越した性能

Vidore-v2テストで58.8 NDCG@5を達成し、同規模の高密度マルチモーダル埋め込みモデルを全て凌駕

統一テキスト-画像エンコーディング

複雑な前処理なしで交互に配置されたテキストと画像を直接エンコード可能

先進的な訓練方法

同種サンプリングとポジティブサンプル認識型ハードネガティブマイニング技術を採用

多言語サポート

英語、イタリア語、フランス語、ドイツ語、スペイン語をサポート

モデル能力

視覚文書検索

マルチモーダル埋め込み

テキスト-画像共同エンコーディング

多言語文書処理

使用事例

研究分野

学術論文検索

論文内の数式、図表、データテーブルを捕捉

学術コンテンツの検索精度向上

企業アプリケーション

技術文書管理

技術文書内のコードブロック、フローチャート、スクリーンショットをエンコード

技術文書の検索効率向上

財務レポート分析

財務レポート内のトレンドチャート、統計グラフ、数値データを埋め込み

財務データの検索効果改善

電子商取引

製品カタログ検索

製品画像、仕様パラメータ、価格表を処理

製品検索体験の最適化

🚀 Nomic Embed Multimodal 3B: 最先端のビジュアルドキュメント検索

nomic-embed-multimodal-3b は、ビジュアルドキュメント検索タスクで優れた性能を発揮する、最先端の高密度マルチモーダル埋め込みモデルです。

高性能：Vidore-v2で58.8のNDCG@5を達成し、同サイズの他の高密度マルチモーダル埋め込みモデルを上回ります。
統一的なテキストと画像のエンコード：複雑な前処理を必要とせず、テキストと画像を直接エンコードします。
高度なアーキテクチャ：30億パラメータのマルチモーダル埋め込みモデルです。
オープンウェイト：研究用途でモデルのウェイトを利用できます。

✨ 主な機能

性能

モデル	平均	ESGレストラン（人間）	経済マクロ（マルチ）	AXA（マルチ）	MITバイオ	ESGレストラン（合成）	ESGレストラン（合成、マルチ）	MITバイオ（マルチ）	AXA	経済マクロ
ColNomic Embed Multimodal 7B	62.7	73.9	54.7	61.3	66.1	57.3	56.7	64.2	68.3	61.6
ColNomic Embed Multimodal 3B	61.2	65.8	55.4	61.0	63.5	56.6	57.2	62.5	68.8	60.2
T-Systems ColQwen2.5-3B	59.9	72.1	51.2	60.0	65.3	51.7	53.3	61.7	69.3	54.8
Nomic Embed Multimodal 7B	59.7	65.7	57.7	59.3	64.0	49.2	51.9	61.2	66.3	63.1
GME Qwen2 7B	59.0	65.8	56.2	55.4	64.0	54.3	56.7	55.1	60.7	62.9
Nomic Embed Multimodal 3B	58.8	59.8	57.5	58.8	62.5	49.4	49.4	58.6	69.6	63.5
Llama Index vdr-2b-multi-v1	58.4	63.1	52.8	61.0	60.6	50.3	51.2	56.9	68.8	61.2
Voyage Multimodal 3	55.0	56.1	55.0	59.5	56.4	47.2	46.2	51.5	64.1	58.8

モデルアーキテクチャ

総パラメータ：30億
学習アプローチ：Qwen2.5-VL 3B Instructからファインチューニング
アーキテクチャタイプ：テキストと画像の入力処理を統一したビジョン言語モデル
主要な革新点：
- 同じソースからのサンプリングにより、より難しいバッチ内の負例を作成
- ポジティブ認識技術を用いたハードネガティブマイニング

RAGワークフローとの統合

Nomic Embed Multimodal 3Bは、Retrieval Augmented Generation (RAG) ワークフローとシームレスに統合できます。

直接的なドキュメント埋め込み：OCRや複雑な処理をスキップして、ドキュメントのページ画像を直接埋め込みます。
高速な処理：前処理ステップを省略することで、より迅速なインデックス作成が可能です。
より完全な情報：単一の埋め込みでテキストとビジュアルの両方の手がかりを捕捉します。
簡単な実装：テキストと画像の両方に同じAPIを使用できます。

推奨される使用例

このモデルは、従来のテキストのみのシステムにとって難しい実世界のドキュメント検索シナリオをうまく処理します。

研究論文：方程式、図、表を捕捉します。
技術文書：コードブロック、フローチャート、スクリーンショットをエンコードします。
製品カタログ：画像、仕様、価格表を表現します。
財務報告：チャート、グラフ、数値データを埋め込みます。
視覚的に豊富なコンテンツ：レイアウトとビジュアル情報が重要な場合に有効です。
多言語ドキュメント：ビジュアルコンテキストが重要な手がかりを提供する場合に役立ちます。

学習の詳細

Nomic Embed Multimodal 3Bは、いくつかの重要な革新を通じて開発されました。

同じソースからのサンプリング：同じデータセットソースからのサンプリングを強制することで、より難しいバッチ内の負例を作成し、モデルがデータセットのアーティファクトを学習するのを防ぎます。
ハードネガティブマイニング：初期モデルを使用して各クエリの上位k個の近傍を検索し、これらのハードネガティブを学習に組み込みます。
ポジティブ認識ハードネガティブマイニング：NV-Retrieverで導入された技術を使用して、誤った負例を減らします。

📦 インストール

nomic-embed-multimodal-3b を使用するには、ソースから colpali をインストールしてください。

pip install git+https://github.com/illuin-tech/colpali.git

💻 使用例

基本的な使用法

import torch
from PIL import Image
from transformers.utils.import_utils import is_flash_attn_2_available

from colpali_engine.models import BiQwen2_5, BiQwen2_5_Processor

model_name = "nomic-ai/nomic-embed-multimodal-3b"

model = BiQwen2_5.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="cuda:0",  # or "mps" if on Apple Silicon
    attn_implementation="flash_attention_2" if is_flash_attn_2_available() else None,
).eval()

processor = BiQwen2_5_Processor.from_pretrained(model_name)

# Your inputs
images = [
    Image.new("RGB", (128, 128), color="white"),
    Image.new("RGB", (64, 32), color="black"),
]
queries = [
    "What is the organizational structure for our R&D department?",
    "Can you provide a breakdown of last year’s financial performance?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score(list(torch.unbind(query_embeddings)), list(torch.unbind(image_embeddings)))

🔧 技術詳細

制限事項

非標準的なレイアウトや独特なビジュアル要素を持つドキュメントを処理する際には、性能が異なる場合があります。
複数の言語を扱えますが、英語のコンテンツで最も高い性能を発揮します。
非常に大きなまたは複雑なドキュメントを処理する場合は、小さなチャンクに分割する必要がある場合があります。
手書き文字や高度にスタイル化されたフォントを含むドキュメントでは、性能が低下する可能性があります。

📄 ライセンス

コミュニティへの参加

Nomic Embedエコシステム: https://www.nomic.ai/embed
ウェブサイト: https://nomic.ai
Twitter: https://twitter.com/nomic_ai
Discord: https://discord.gg/myY5YDR8z8

引用

このモデルがあなたの研究やアプリケーションで役立った場合は、以下を引用してください。

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}
@misc{ma2024unifyingmultimodalretrievaldocument,
      title={Unifying Multimodal Retrieval via Document Screenshot Embedding}, 
      author={Xueguang Ma and Sheng-Chieh Lin and Minghan Li and Wenhu Chen and Jimmy Lin},
      year={2024},
      eprint={2406.11251},
      archivePrefix={arXiv},
      primaryClass={cs.IR},
      url={https://arxiv.org/abs/2406.11251}, 
}
@misc{nomicembedmultimodal2025,
  title={Nomic Embed Multimodal: Interleaved Text, Image, and Screenshots for Visual Document Retrieval},
  author={Nomic Team},
  year={2025},
  publisher={Nomic AI},
  url={https://nomic.ai/blog/posts/nomic-embed-multimodal},
}

モデル情報

属性	詳情
モデルタイプ	マルチモーダル埋め込みモデル
学習データ	nomic-ai/colpali-queries-mined-20250321-by-source
サポート言語	英語、イタリア語、フランス語、ドイツ語、スペイン語
パイプラインタグ	ビジュアルドキュメント検索
タグ	vidore、colpali、マルチモーダル埋め込み、多言語埋め込み、テキストからビジュアルドキュメント (T→VD) 検索