# 視覺文檔檢索

Omniembed V0.1
MIT
基於Qwen2.5-Omni-7B構建的多模態嵌入模型,支持跨語言文本、圖像、音頻和視頻的統一嵌入表示
多模態融合
O
Tevatron
2,190
3
Biqwen2 V0.1
Apache-2.0
BiQwen2是基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型,專注於高效視覺文檔檢索。
文本生成圖像 英語
B
vidore
460
0
Nomic Embed Multimodal 7b
Apache-2.0
70億參數的多模態嵌入模型,專精於視覺文檔檢索任務,在Vidore-v2基準測試中表現卓越
文本生成圖像 支持多種語言
N
nomic-ai
741
26
Nomic Embed Multimodal 3b
Nomic Embed Multimodal 3B是一款頂尖的多模態嵌入模型,專注於視覺文檔檢索任務,支持統一文本-圖像編碼,在Vidore-v2測試中達到58.8 NDCG@5的卓越性能。
文本生成圖像 支持多種語言
N
nomic-ai
3,431
11
Colnomic Embed Multimodal 3b
ColNomic Embed多模態3B是一款30億參數的多模態嵌入模型,專為視覺文檔檢索任務設計,支持多語言文本和圖像的統一編碼。
多模態融合 支持多種語言
C
nomic-ai
4,636
17
Colsmol 500M
MIT
基於SmolVLM-Instruct-500M與ColBERT策略的視覺檢索模型,能高效通過視覺特徵索引文檔
文本生成圖像 英語
C
vidore
1,807
17
Colqwen2 V1.0
Apache-2.0
ColQwen2是基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型,用於高效索引文檔的視覺特徵。
文本生成圖像 英語
C
vidore
106.85k
86
Monoqwen2 VL V0.1
Apache-2.0
MonoQwen2-VL-v0.1 是一個基於 Qwen2-VL-2B 微調的多模態重排器,用於評估圖像與查詢的相關性。
圖像生成文本
M
lightonai
547
40
Dse Qwen2 2b Mrl V1
Apache-2.0
DSE-QWen2-2b-MRL-V1 是一個雙編碼器模型,專為將文檔截圖編碼為密集向量以實現文檔檢索而設計。
多模態融合 支持多種語言
D
MrLight
4,447
56
Colpali V1.2
MIT
ColPali是基於PaliGemma-3B與ColBERT策略的視覺語言模型,用於高效地從視覺特徵中索引文檔。
文本生成圖像 英語
C
vidore
61.77k
108
Colpali V1.1
MIT
ColPali是基於PaliGemma-3B與ColBERT策略的視覺檢索模型,用於高效地從視覺特徵中索引文檔。
文本生成圖像 Safetensors 英語
C
vidore
196
2
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase