Colnomic Embed Multimodal 7b
ColNomic Embed Multimodal 7B是一款多向量最先進的多模態嵌入模型,擅長視覺文檔檢索任務,支持多語言和統一文本圖像編碼。
下載量 7,909
發布時間 : 3/31/2025
模型概述
該模型是一款70億參數的多模態嵌入模型,專為視覺文檔檢索任務設計,能夠直接編碼交錯排列的文本和圖像,無需複雜預處理。
模型特點
高性能
在Vidore-v2上達到62.7 NDCG@5,超越所有其他模型
統一文本圖像編碼
直接編碼交錯排列的文本和圖像,無需複雜預處理
先進架構
70億參數的多模態嵌入模型
完全開源
提供模型權重、訓練數據和代碼
多語言支持
支持英語、意大利語、法語、德語和西班牙語
模型能力
視覺文檔檢索
多模態嵌入
多語言嵌入
文本到視覺文檔檢索
使用案例
研究論文
捕獲公式、圖表和表格
用於檢索包含複雜科學公式和圖表的學術論文
提高檢索準確率
技術文檔
編碼代碼塊、流程圖和截圖
用於檢索技術文檔中的代碼示例和系統架構圖
更精準的技術內容檢索
產品目錄
產品圖像檢索
根據產品描述檢索相關產品圖像
提升電子商務體驗
財務報告
嵌入圖表、圖形和數值數據
用於檢索財務報告中的關鍵數據可視化
快速定位關鍵財務指標
🚀 ColNomic Embed Multimodal 7B:領先的視覺文檔檢索模型
colnomic-embed-multimodal-7b
是一款多向量的先進多模態嵌入模型,在視覺文檔檢索任務中表現卓越:
- 高性能:在 Vidore-v2 上實現了 62.7 的 NDCG@5,超越了所有其他模型。
- 統一的文本 - 圖像編碼:無需複雜的預處理,可直接對交錯的文本和圖像進行編碼。
- 先進架構:擁有 70 億參數的多模態嵌入模型。
- 完全開源:模型權重、訓練數據和代碼均公開可用。
🚀 快速開始
若要使用 colnomic-embed-multimodal-7b
,請從源代碼安裝 colpali
:
pip install git+https://github.com/illuin-tech/colpali.git
import torch
from PIL import Image
from transformers.utils.import_utils import is_flash_attn_2_available
from colpali_engine.models import ColQwen2_5, ColQwen2_5_Processor
model_name = "nomic-ai/colnomic-embed-multimodal-7b"
model = ColQwen2_5.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="cuda:0", # 若使用蘋果芯片,可改為 "mps"
attn_implementation="flash_attention_2" if is_flash_attn_2_available() else None,
).eval()
processor = ColQwen2_5_Processor.from_pretrained(model_name)
# 輸入數據
images = [
Image.new("RGB", (128, 128), color="white"),
Image.new("RGB", (64, 32), color="black"),
]
queries = [
"What is the organizational structure for our R&D department?",
"Can you provide a breakdown of last year’s financial performance?",
]
# 處理輸入
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)
# 前向傳播
with torch.no_grad():
image_embeddings = model(**batch_images)
query_embeddings = model(**batch_queries)
scores = processor.score_multi_vector(query_embeddings, image_embeddings)
✨ 主要特性
性能卓越
模型 | 平均 | ESG 餐廳人工數據 | 經濟宏觀多模態數據 | AXA 多模態數據 | MIT 生物數據 | ESG 餐廳合成數據 | ESG 餐廳合成多模態數據 | MIT 生物多模態數據 | AXA 數據 | 經濟宏觀數據 |
---|---|---|---|---|---|---|---|---|---|---|
ColNomic Embed Multimodal 7B | 62.7 | 73.9 | 54.7 | 61.3 | 66.1 | 57.3 | 56.7 | 64.2 | 68.3 | 61.6 |
ColNomic Embed Multimodal 3B | 61.2 | 65.8 | 55.4 | 61.0 | 63.5 | 56.6 | 57.2 | 62.5 | 68.8 | 60.2 |
T - Systems ColQwen2.5 - 3B | 59.9 | 72.1 | 51.2 | 60.0 | 65.3 | 51.7 | 53.3 | 61.7 | 69.3 | 54.8 |
Nomic Embed Multimodal 7B | 59.7 | 65.7 | 57.7 | 59.3 | 64.0 | 49.2 | 51.9 | 61.2 | 66.3 | 63.1 |
GME Qwen2 7B | 59.0 | 65.8 | 56.2 | 55.4 | 64.0 | 54.3 | 56.7 | 55.1 | 60.7 | 62.9 |
Nomic Embed Multimodal 3B | 58.8 | 59.8 | 57.5 | 58.8 | 62.5 | 49.4 | 49.4 | 58.6 | 69.6 | 63.5 |
Llama Index vdr - 2b - multi - v1 | 58.4 | 63.1 | 52.8 | 61.0 | 60.6 | 50.3 | 51.2 | 56.9 | 68.8 | 61.2 |
Voyage Multimodal 3 | 55.0 | 56.1 | 55.0 | 59.5 | 56.4 | 47.2 | 46.2 | 51.5 | 64.1 | 58.8 |
架構優勢
- 總參數:70 億
- 訓練方式:基於 Qwen2.5 - VL 7B Instruct 進行微調
- 架構類型:具備統一文本和圖像輸入處理能力的視覺 - 語言模型
- 關鍵創新:
- 同來源採樣,以創建更具挑戰性的批次內負樣本。
- 提供多向量輸出選項,以提升性能。
與 RAG 工作流集成
Nomic Embed Multimodal 7B 可無縫集成到檢索增強生成(RAG)工作流中:
- 直接文檔嵌入:直接對文檔頁面圖像進行嵌入,跳過 OCR 和複雜處理。
- 更快處理速度:消除預處理步驟,實現更快的索引。
- 更完整信息:在單個嵌入中捕獲文本和視覺線索。
- 簡單實現:對文本和圖像使用相同的 API。
推薦用例
該模型在處理現實世界的文檔檢索場景方面表現出色,這些場景對傳統的純文本系統構成挑戰:
- 研究論文:捕獲方程式、圖表和表格。
- 技術文檔:對代碼塊、流程圖和截圖進行編碼。
- 產品目錄:表示圖像、規格和價格表。
- 財務報告:嵌入圖表、圖形和數值數據。
- 視覺豐富內容:佈局和視覺信息至關重要的場景。
- 多語言文檔:視覺上下文提供重要線索的情況。
訓練細節
ColNomic Embed Multimodal 7B 通過以下關鍵創新得以開發:
- 同來源採樣:強制從同一數據集來源進行採樣,創建更具挑戰性的批次內負樣本,防止模型學習數據集的人工痕跡。
- 多向量配置:提供多向量變體,其性能優於密集變體。
侷限性
- 處理具有非常規佈局或不尋常視覺元素的文檔時,性能可能會有所不同。
- 雖然支持多種語言,但在英語內容上的性能最強。
- 處理非常大或複雜的文檔時,可能需要將其分割成較小的塊。
- 處理包含手寫體或高度風格化字體的文檔時,性能可能會下降。
📦 安裝指南
若要使用 colnomic-embed-multimodal-7b
,請從源代碼安裝 colpali
:
pip install git+https://github.com/illuin-tech/colpali.git
💻 使用示例
基礎用法
import torch
from PIL import Image
from transformers.utils.import_utils import is_flash_attn_2_available
from colpali_engine.models import ColQwen2_5, ColQwen2_5_Processor
model_name = "nomic-ai/colnomic-embed-multimodal-7b"
model = ColQwen2_5.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="cuda:0", # 若使用蘋果芯片,可改為 "mps"
attn_implementation="flash_attention_2" if is_flash_attn_2_available() else None,
).eval()
processor = ColQwen2_5_Processor.from_pretrained(model_name)
# 輸入數據
images = [
Image.new("RGB", (128, 128), color="white"),
Image.new("RGB", (64, 32), color="black"),
]
queries = [
"What is the organizational structure for our R&D department?",
"Can you provide a breakdown of last year’s financial performance?",
]
# 處理輸入
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)
# 前向傳播
with torch.no_grad():
image_embeddings = model(**batch_images)
query_embeddings = model(**batch_queries)
scores = processor.score_multi_vector(query_embeddings, image_embeddings)
📚 詳細文檔
加入 Nomic 社區
- Nomic Embed 生態系統:https://www.nomic.ai/embed
- 網站:https://nomic.ai
- Twitter:https://twitter.com/nomic_ai
- Discord:https://discord.gg/myY5YDR8z8
引用信息
如果您發現此模型在您的研究或應用中有用,請考慮引用:
@misc{faysse2024colpaliefficientdocumentretrieval,
title={ColPali: Efficient Document Retrieval with Vision Language Models},
author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
year={2024},
eprint={2407.01449},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2407.01449},
}
@misc{ma2024unifyingmultimodalretrievaldocument,
title={Unifying Multimodal Retrieval via Document Screenshot Embedding},
author={Xueguang Ma and Sheng-Chieh Lin and Minghan Li and Wenhu Chen and Jimmy Lin},
year={2024},
eprint={2406.11251},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2406.11251},
}
@misc{nomicembedmultimodal2025,
title={Nomic Embed Multimodal: Interleaved Text, Image, and Screenshots for Visual Document Retrieval},
author={Nomic Team},
year={2025},
publisher={Nomic AI},
url={https://nomic.ai/blog/posts/nomic-embed-multimodal},
}
📄 許可證
本項目採用 Apache - 2.0 許可證。
📦 模型信息
屬性 | 詳情 |
---|---|
基礎模型 | Qwen/Qwen2.5 - VL - 7B - Instruct |
庫名稱 | peft |
訓練數據集 | llamaindex/vdr - multilingual - train、nomic - ai/colpali_train_set_split_by_source |
支持語言 | 英語、意大利語、法語、德語、西班牙語 |
任務類型 | 視覺文檔檢索 |
標籤 | vidore、colpali、multimodal_embedding、multilingual_embedding、Text - to - Visual Document (T→VD) retrieval |
許可證 | apache - 2.0 |
Codebert Base
CodeBERT是一個面向編程語言與自然語言的預訓練模型,基於RoBERTa架構,支持代碼搜索和代碼生成文檔等功能。
多模態融合
C
microsoft
1.6M
248
Llama 4 Scout 17B 16E Instruct
其他
Llama 4 Scout是Meta開發的多模態AI模型,採用混合專家架構,支持12種語言的文本和圖像交互,具有17B激活參數和109B總參數。
多模態融合
Transformers 支持多種語言

L
meta-llama
817.62k
844
Unixcoder Base
Apache-2.0
UniXcoder是一個統一的多模態預訓練模型,利用代碼註釋和抽象語法樹等多模態數據預訓練代碼表示。
多模態融合
Transformers 英語

U
microsoft
347.45k
51
TITAN
TITAN是一個多模態全切片基礎模型,通過視覺自監督學習和視覺-語言對齊進行預訓練,用於病理學圖像分析。
多模態融合
Safetensors 英語
T
MahmoodLab
213.39k
37
Qwen2.5 Omni 7B
其他
Qwen2.5-Omni 是一個端到端的多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態,並以流式方式生成文本和自然語音響應。
多模態融合
Transformers 英語

Q
Qwen
206.20k
1,522
Minicpm O 2 6
MiniCPM-o 2.6是一款手機端運行的GPT-4o級多模態大模型,支持視覺、語音與直播流處理
多模態融合
Transformers 其他

M
openbmb
178.38k
1,117
Llama 4 Scout 17B 16E Instruct
其他
Llama 4 Scout是Meta推出的17B參數/16專家混合的多模態AI模型,支持12種語言和圖像理解,具有行業領先性能。
多模態融合
Transformers 支持多種語言

L
chutesai
173.52k
2
Qwen2.5 Omni 3B
其他
Qwen2.5-Omni是一款端到端多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態信息,並以流式方式同步生成文本和自然語音響應。
多模態融合
Transformers 英語

Q
Qwen
48.07k
219
One Align
MIT
Q-Align是一個多任務視覺評估模型,專注於圖像質量評估(IQA)、美學評估(IAA)和視頻質量評估(VQA),在ICML2024上發表。
多模態融合
Transformers

O
q-future
39.48k
25
Biomedvlp BioViL T
MIT
BioViL-T是一個專注於分析胸部X光片和放射學報告的視覺語言模型,通過時序多模態預訓練提升性能。
多模態融合
Transformers 英語

B
microsoft
26.39k
35
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98