Omniembed V0.1
MIT
基於Qwen2.5-Omni-7B構建的多模態嵌入模型,支持跨語言文本、圖像、音頻和視頻的統一嵌入表示
多模態融合
O
Tevatron
2,190
3
Biqwen2 V0.1
Apache-2.0
BiQwen2是基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型,專注於高效視覺文檔檢索。
文本生成圖像 英語
B
vidore
460
0
Nomic Embed Multimodal 7b
Apache-2.0
70億參數的多模態嵌入模型,專精於視覺文檔檢索任務,在Vidore-v2基準測試中表現卓越
文本生成圖像 支持多種語言
N
nomic-ai
741
26
Nomic Embed Multimodal 3b
Nomic Embed Multimodal 3B是一款頂尖的多模態嵌入模型,專注於視覺文檔檢索任務,支持統一文本-圖像編碼,在Vidore-v2測試中達到58.8 NDCG@5的卓越性能。
文本生成圖像 支持多種語言
N
nomic-ai
3,431
11
Colnomic Embed Multimodal 3b
ColNomic Embed多模態3B是一款30億參數的多模態嵌入模型,專為視覺文檔檢索任務設計,支持多語言文本和圖像的統一編碼。
多模態融合 支持多種語言
C
nomic-ai
4,636
17
Colsmol 500M
MIT
基於SmolVLM-Instruct-500M與ColBERT策略的視覺檢索模型,能高效通過視覺特徵索引文檔
文本生成圖像 英語
C
vidore
1,807
17
Colqwen2 V1.0
Apache-2.0
ColQwen2是基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型,用於高效索引文檔的視覺特徵。
文本生成圖像 英語
C
vidore
106.85k
86
Monoqwen2 VL V0.1
Apache-2.0
MonoQwen2-VL-v0.1 是一個基於 Qwen2-VL-2B 微調的多模態重排器,用於評估圖像與查詢的相關性。
圖像生成文本
M
lightonai
547
40
Dse Qwen2 2b Mrl V1
Apache-2.0
DSE-QWen2-2b-MRL-V1 是一個雙編碼器模型,專為將文檔截圖編碼為密集向量以實現文檔檢索而設計。
多模態融合 支持多種語言
D
MrLight
4,447
56
Colpali V1.2
MIT
ColPali是基於PaliGemma-3B與ColBERT策略的視覺語言模型,用於高效地從視覺特徵中索引文檔。
文本生成圖像 英語
C
vidore
61.77k
108
Colpali V1.1
MIT
ColPali是基於PaliGemma-3B與ColBERT策略的視覺檢索模型,用於高效地從視覺特徵中索引文檔。
文本生成圖像
Safetensors 英語
C
vidore
196
2
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98