nomic-embed-multimodal-7bオープンソースマルチモーダル埋め込みモデル - 無料でビジュアルドキュメントの効率的な検索をサポート

Home

Nomic Embed Multimodal 7b

Developed by nomic-ai

70億パラメータのマルチモーダル埋め込みモデルで、視覚的文書検索タスクに特化しており、Vidore-v2ベンチマークで優れた性能を発揮

テキスト生成画像

Safetensors

Supports Multiple LanguagesOpen Source License:Apache-2.0 #テキストと画像の統一エンコーディング #視覚的文書検索 #多言語埋め込み

Downloads 741

Release Time : 3/29/2025

Model Overview

優れた性能を持つ密なマルチモーダル埋め込みモデルで、複雑な前処理なしにテキストと画像を直接処理でき、特に視覚的文書検索タスクに適している

Model Features

優れた性能

Vidore-v2ベンチマークで58.8 NDCG@5を達成し、他のすべての密なマルチモーダル埋め込みモデルを凌駕

テキストと画像の統一エンコーディング

複雑な前処理なしにテキストと画像を直接処理

先進的なアーキテクチャ

70億パラメータのマルチモーダル埋め込みモデル

完全オープンソース

モデル重み、トレーニングデータ、完全なコードを提供

Model Capabilities

視覚的文書検索

マルチモーダル埋め込み

多言語処理

テキストと画像の統一エンコーディング

Use Cases

研究分野

研究論文検索

数式、図表、データを含む研究論文を処理

複雑な学術コンテンツを効果的に検索

技術文書

技術文書管理

コードブロック、フローチャート、スクリーンショットなどの技術文書コンテンツをエンコード

技術文書検索効率を向上

ビジネスアプリケーション

製品カタログ検索

製品画像、仕様パラメータ、価格表を表示

電子商取引体験を改善

財務レポート分析

トレンドチャート、棒グラフ、数値データを埋め込み

財務データ分析を加速

🚀 Nomic Embed Multimodal 7B: 最先端のビジュアルドキュメント検索

nomic-embed-multimodal-7b は、ビジュアルドキュメント検索タスクで卓越した最先端の密なマルチモーダル埋め込みモデルです。

高い性能：Vidore-v2で58.8 NDCG@5を達成し、他のすべての密なマルチモーダル埋め込みモデルを上回ります。
統一されたテキストと画像のエンコーディング：複雑な前処理なしで、テキストと画像を直接エンコードします。
高度なアーキテクチャ：70億パラメータのマルチモーダル埋め込みモデルです。
完全なオープンソース：モデルの重み、学習データ、コードが公開されています。

🚀 クイックスタート

nomic-embed-multimodal-7b を使用するには、ソースから colpali をインストールしてください。

pip install git+https://github.com/illuin-tech/colpali.git

import torch
from PIL import Image
from transformers.utils.import_utils import is_flash_attn_2_available

from colpali_engine.models import BiQwen2_5, BiQwen2_5_Processor

model_name = "nomic-ai/nomic-embed-multimodal-7b"

model = BiQwen2_5.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="cuda:0",  # or "mps" if on Apple Silicon
    attn_implementation="flash_attention_2" if is_flash_attn_2_available() else None,
).eval()

processor = BiQwen2_5_Processor.from_pretrained(model_name)

# Your inputs
images = [
    Image.new("RGB", (128, 128), color="white"),
    Image.new("RGB", (64, 32), color="black"),
]
queries = [
    "What is the organizational structure for our R&D department?",
    "Can you provide a breakdown of last year’s financial performance?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score(list(torch.unbind(query_embeddings)), list(torch.unbind(image_embeddings)))

✨ 主な機能

性能

モデル	平均	ESGレストラン（人間）	経済マクロ（マルチ）	AXA（マルチ）	MITバイオ	ESGレストラン（合成）	ESGレストラン（合成、マルチ）	MITバイオ（マルチ）	AXA	経済マクロ
ColNomic Embed Multimodal 7B	62.7	73.9	54.7	61.3	66.1	57.3	56.7	64.2	68.3	61.6
ColNomic Embed Multimodal 3B	61.2	65.8	55.4	61.0	63.5	56.6	57.2	62.5	68.8	60.2
T-Systems ColQwen2.5-3B	59.9	72.1	51.2	60.0	65.3	51.7	53.3	61.7	69.3	54.8
Nomic Embed Multimodal 7B	59.7	65.7	57.7	59.3	64.0	49.2	51.9	61.2	66.3	63.1
GME Qwen2 7B	59.0	65.8	56.2	55.4	64.0	54.3	56.7	55.1	60.7	62.9
Nomic Embed Multimodal 3B	58.8	59.8	57.5	58.8	62.5	49.4	49.4	58.6	69.6	63.5
Llama Index vdr-2b-multi-v1	58.4	63.1	52.8	61.0	60.6	50.3	51.2	56.9	68.8	61.2
Voyage Multimodal 3	55.0	56.1	55.0	59.5	56.4	47.2	46.2	51.5	64.1	58.8

モデルアーキテクチャ

総パラメータ数：70億
学習アプローチ：Qwen2.5-VL 7B Instructからファインチューニング
アーキテクチャタイプ：テキストと画像の入力処理を統一したビジョン言語モデル
主要な革新点：
- 同じソースからのサンプリングにより、バッチ内の難しいネガティブサンプルを作成
- ポジティブを考慮した技術を用いた難しいネガティブサンプルのマイニング

RAGワークフローとの統合

Nomic Embed Multimodal 7Bは、Retrieval Augmented Generation (RAG) ワークフローとシームレスに統合できます。

直接的なドキュメント埋め込み：OCRや複雑な処理をスキップして、ドキュメントのページ画像を直接埋め込みます。
高速な処理：前処理ステップを省略することで、より迅速なインデックス作成が可能です。
より完全な情報：単一の埋め込みでテキストとビジュアルの両方の手がかりを捉えます。
簡単な実装：テキストと画像の両方に同じAPIを使用できます。

推奨使用例

このモデルは、従来のテキストのみのシステムにとって難しい実世界のドキュメント検索シナリオをうまく処理します。

研究論文：方程式、図、表を捉えます。
技術文書：コードブロック、フローチャート、スクリーンショットをエンコードします。
製品カタログ：画像、仕様、価格表を表現します。
財務報告：チャート、グラフ、数値データを埋め込みます。
視覚的に豊富なコンテンツ：レイアウトやビジュアル情報が重要な場合に有効です。
多言語ドキュメント：ビジュアルコンテキストが重要な手がかりを提供する場合に役立ちます。

学習の詳細

Nomic Embed Multimodal 7Bは、いくつかの重要な革新を通じて開発されました。

同じソースからのサンプリング：同じデータセットソースからのサンプリングを強制することで、バッチ内の難しいネガティブサンプルを作成し、モデルがデータセットのアーティファクトを学習するのを防ぎます。
難しいネガティブサンプルのマイニング：初期モデルを使用して、各クエリに対する上位k個の近傍を検索し、これらの難しいネガティブサンプルを学習に組み込みます。
ポジティブを考慮した難しいネガティブサンプルのマイニング：NV-Retrieverで導入された技術を用いて、誤ったネガティブを減らします。

制限事項

非定型のレイアウトや異常なビジュアル要素を持つドキュメントを処理する際には、性能が異なる場合があります。
複数の言語を扱えますが、英語のコンテンツに対する性能が最も高いです。
非常に大きいまたは複雑なドキュメントを処理する場合は、小さなチャンクに分割する必要がある場合があります。
手書き文字や非常にスタイリッシュなフォントのドキュメントに対する性能は低下する場合があります。

📚 ドキュメント

モデル情報

属性	詳情
ベースモデル	Qwen/Qwen2.5-VL-7B-Instruct
ライブラリ名	peft
データセット	nomic-ai/colpali-queries-mined-20250321-by-source
言語	en, it, fr, de, es
パイプラインタグ	ビジュアルドキュメント検索
タグ	vidore, colpali, マルチモーダル埋め込み, 多言語埋め込み, テキストからビジュアルドキュメント (T→VD) 検索

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

コミュニティへの参加

Nomic Embedエコシステム: https://www.nomic.ai/embed
ウェブサイト: https://nomic.ai
Twitter: https://twitter.com/nomic_ai
Discord: https://discord.gg/myY5YDR8z8

引用

このモデルがあなたの研究やアプリケーションで役立つ場合、以下を引用してください。

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}
@misc{ma2024unifyingmultimodalretrievaldocument,
      title={Unifying Multimodal Retrieval via Document Screenshot Embedding}, 
      author={Xueguang Ma and Sheng-Chieh Lin and Minghan Li and Wenhu Chen and Jimmy Lin},
      year={2024},
      eprint={2406.11251},
      archivePrefix={arXiv},
      primaryClass={cs.IR},
      url={https://arxiv.org/abs/2406.11251}, 
}
@misc{nomicembedmultimodal2025,
  title={Nomic Embed Multimodal: Interleaved Text, Image, and Screenshots for Visual Document Retrieval},
  author={Nomic Team},
  year={2025},
  publisher={Nomic AI},
  url={https://nomic.ai/blog/posts/nomic-embed-multimodal},
}