ColNomic Embed Multimodal 7B開源模型 - 支持多語言，高效視覺文檔檢索

首頁

Colnomic Embed Multimodal 7b

由nomic-ai開發

ColNomic Embed Multimodal 7B是一款多向量最先進的多模態嵌入模型，擅長視覺文檔檢索任務，支持多語言和統一文本圖像編碼。

多模態融合

Safetensors

支持多種語言開源協議:Apache-2.0 #多模態文檔檢索 #多語言視覺嵌入 #統一圖文編碼

下載量 7,909

發布時間 : 3/31/2025

模型概述

該模型是一款70億參數的多模態嵌入模型，專為視覺文檔檢索任務設計，能夠直接編碼交錯排列的文本和圖像，無需複雜預處理。

模型特點

高性能

在Vidore-v2上達到62.7 NDCG@5，超越所有其他模型

統一文本圖像編碼

直接編碼交錯排列的文本和圖像，無需複雜預處理

先進架構

70億參數的多模態嵌入模型

完全開源

提供模型權重、訓練數據和代碼

多語言支持

支持英語、意大利語、法語、德語和西班牙語

模型能力

視覺文檔檢索

多模態嵌入

多語言嵌入

文本到視覺文檔檢索

使用案例

研究論文

捕獲公式、圖表和表格

用於檢索包含複雜科學公式和圖表的學術論文

提高檢索準確率

技術文檔

編碼代碼塊、流程圖和截圖

用於檢索技術文檔中的代碼示例和系統架構圖

更精準的技術內容檢索

產品目錄

產品圖像檢索

根據產品描述檢索相關產品圖像

提升電子商務體驗

財務報告

嵌入圖表、圖形和數值數據

用於檢索財務報告中的關鍵數據可視化

快速定位關鍵財務指標

🚀 ColNomic Embed Multimodal 7B：領先的視覺文檔檢索模型

colnomic-embed-multimodal-7b 是一款多向量的先進多模態嵌入模型，在視覺文檔檢索任務中表現卓越：

高性能：在 Vidore-v2 上實現了 62.7 的 NDCG@5，超越了所有其他模型。
統一的文本 - 圖像編碼：無需複雜的預處理，可直接對交錯的文本和圖像進行編碼。
先進架構：擁有 70 億參數的多模態嵌入模型。
完全開源：模型權重、訓練數據和代碼均公開可用。

🚀 快速開始

若要使用 colnomic-embed-multimodal-7b，請從源代碼安裝 colpali：

pip install git+https://github.com/illuin-tech/colpali.git

import torch
from PIL import Image
from transformers.utils.import_utils import is_flash_attn_2_available

from colpali_engine.models import ColQwen2_5, ColQwen2_5_Processor

model_name = "nomic-ai/colnomic-embed-multimodal-7b"

model = ColQwen2_5.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="cuda:0",  # 若使用蘋果芯片，可改為 "mps"
    attn_implementation="flash_attention_2" if is_flash_attn_2_available() else None,
).eval()

processor = ColQwen2_5_Processor.from_pretrained(model_name)

# 輸入數據
images = [
    Image.new("RGB", (128, 128), color="white"),
    Image.new("RGB", (64, 32), color="black"),
]
queries = [
    "What is the organizational structure for our R&D department?",
    "Can you provide a breakdown of last year’s financial performance?",
]

# 處理輸入
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# 前向傳播
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

✨ 主要特性

性能卓越

模型	平均	ESG 餐廳人工數據	經濟宏觀多模態數據	AXA 多模態數據	MIT 生物數據	ESG 餐廳合成數據	ESG 餐廳合成多模態數據	MIT 生物多模態數據	AXA 數據	經濟宏觀數據
ColNomic Embed Multimodal 7B	62.7	73.9	54.7	61.3	66.1	57.3	56.7	64.2	68.3	61.6
ColNomic Embed Multimodal 3B	61.2	65.8	55.4	61.0	63.5	56.6	57.2	62.5	68.8	60.2
T - Systems ColQwen2.5 - 3B	59.9	72.1	51.2	60.0	65.3	51.7	53.3	61.7	69.3	54.8
Nomic Embed Multimodal 7B	59.7	65.7	57.7	59.3	64.0	49.2	51.9	61.2	66.3	63.1
GME Qwen2 7B	59.0	65.8	56.2	55.4	64.0	54.3	56.7	55.1	60.7	62.9
Nomic Embed Multimodal 3B	58.8	59.8	57.5	58.8	62.5	49.4	49.4	58.6	69.6	63.5
Llama Index vdr - 2b - multi - v1	58.4	63.1	52.8	61.0	60.6	50.3	51.2	56.9	68.8	61.2
Voyage Multimodal 3	55.0	56.1	55.0	59.5	56.4	47.2	46.2	51.5	64.1	58.8

架構優勢

總參數：70 億
訓練方式：基於 Qwen2.5 - VL 7B Instruct 進行微調
架構類型：具備統一文本和圖像輸入處理能力的視覺 - 語言模型
關鍵創新：
- 同來源採樣，以創建更具挑戰性的批次內負樣本。
- 提供多向量輸出選項，以提升性能。

與 RAG 工作流集成

Nomic Embed Multimodal 7B 可無縫集成到檢索增強生成（RAG）工作流中：

直接文檔嵌入：直接對文檔頁面圖像進行嵌入，跳過 OCR 和複雜處理。
更快處理速度：消除預處理步驟，實現更快的索引。
更完整信息：在單個嵌入中捕獲文本和視覺線索。
簡單實現：對文本和圖像使用相同的 API。

訓練細節

ColNomic Embed Multimodal 7B 通過以下關鍵創新得以開發：

同來源採樣：強制從同一數據集來源進行採樣，創建更具挑戰性的批次內負樣本，防止模型學習數據集的人工痕跡。
多向量配置：提供多向量變體，其性能優於密集變體。

侷限性

處理具有非常規佈局或不尋常視覺元素的文檔時，性能可能會有所不同。
雖然支持多種語言，但在英語內容上的性能最強。
處理非常大或複雜的文檔時，可能需要將其分割成較小的塊。
處理包含手寫體或高度風格化字體的文檔時，性能可能會下降。

📦 安裝指南

若要使用 colnomic-embed-multimodal-7b，請從源代碼安裝 colpali：

pip install git+https://github.com/illuin-tech/colpali.git

💻 使用示例

基礎用法

import torch
from PIL import Image
from transformers.utils.import_utils import is_flash_attn_2_available

from colpali_engine.models import ColQwen2_5, ColQwen2_5_Processor

model_name = "nomic-ai/colnomic-embed-multimodal-7b"

model = ColQwen2_5.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="cuda:0",  # 若使用蘋果芯片，可改為 "mps"
    attn_implementation="flash_attention_2" if is_flash_attn_2_available() else None,
).eval()

processor = ColQwen2_5_Processor.from_pretrained(model_name)

# 輸入數據
images = [
    Image.new("RGB", (128, 128), color="white"),
    Image.new("RGB", (64, 32), color="black"),
]
queries = [
    "What is the organizational structure for our R&D department?",
    "Can you provide a breakdown of last year’s financial performance?",
]

# 處理輸入
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# 前向傳播
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

📚 詳細文檔

加入 Nomic 社區

Nomic Embed 生態系統：https://www.nomic.ai/embed
網站：https://nomic.ai
Twitter：https://twitter.com/nomic_ai
Discord：https://discord.gg/myY5YDR8z8

引用信息

如果您發現此模型在您的研究或應用中有用，請考慮引用：

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}
@misc{ma2024unifyingmultimodalretrievaldocument,
      title={Unifying Multimodal Retrieval via Document Screenshot Embedding}, 
      author={Xueguang Ma and Sheng-Chieh Lin and Minghan Li and Wenhu Chen and Jimmy Lin},
      year={2024},
      eprint={2406.11251},
      archivePrefix={arXiv},
      primaryClass={cs.IR},
      url={https://arxiv.org/abs/2406.11251}, 
}
@misc{nomicembedmultimodal2025,
  title={Nomic Embed Multimodal: Interleaved Text, Image, and Screenshots for Visual Document Retrieval},
  author={Nomic Team},
  year={2025},
  publisher={Nomic AI},
  url={https://nomic.ai/blog/posts/nomic-embed-multimodal},
}

📄 許可證

本項目採用 Apache - 2.0 許可證。

📦 模型信息

屬性	詳情
基礎模型	Qwen/Qwen2.5 - VL - 7B - Instruct
庫名稱	peft
訓練數據集	llamaindex/vdr - multilingual - train、nomic - ai/colpali_train_set_split_by_source
支持語言	英語、意大利語、法語、德語、西班牙語
任務類型	視覺文檔檢索
標籤	vidore、colpali、multimodal_embedding、multilingual_embedding、Text - to - Visual Document (T→VD) retrieval
許可證	apache - 2.0