Holo1 3B GGUF
其他
Holo1-3B是基於Transformer架構的多模態模型,專注於視覺文檔檢索任務,在WebVoyager基準測試中表現出色,平衡了準確性和成本。
圖像生成文本
Transformers 英語

H
Mungert
583
0
Holo1 7B GGUF
Apache-2.0
Holo1-7B GGUF模型是Surfer-H系統的一部分,適用於視覺文檔檢索等多模態任務,特別擅長網頁交互和網絡監控,能以較低成本實現高準確性。
圖像生成文本
Transformers 英語

H
Mungert
663
0
Granite Vision 3.3 2b Embedding
Apache-2.0
基於granite-vision-3.3-2b構建的高效嵌入模型,專為多模態文檔檢索設計,可處理包含表格、圖表、信息圖和複雜佈局的文檔。
多模態融合
Transformers 英語

G
ibm-granite
205
4
Colnomic Embed Multimodal 7b
Apache-2.0
ColNomic Embed Multimodal 7B是一款多向量最先進的多模態嵌入模型,擅長視覺文檔檢索任務,支持多語言和統一文本圖像編碼。
多模態融合 支持多種語言
C
nomic-ai
7,909
45
Ret OpenCLIP ViT G 14
Apache-2.0
ReT是一種支持多模態查詢與文檔檢索的創新方法,通過整合視覺與文本主幹網絡不同層級的多元表徵實現細粒度檢索。
多模態融合
Transformers

R
aimagelab
77
0
Ret OpenCLIP ViT H 14
Apache-2.0
ReT是一種支持多模態查詢與文檔檢索的創新方法,通過整合視覺與文本骨幹網絡不同層級的多元表徵實現細粒度檢索。
多模態融合
Transformers

R
aimagelab
23
0
Ret CLIP ViT L 14
Apache-2.0
ReT是一種支持多模態查詢與文檔檢索的創新方法,通過融合視覺與文本骨幹網絡多層級表徵實現細粒度檢索。
多模態融合
Transformers

R
aimagelab
523
0
Colqwen2.5 3b Multilingual V1.0
MIT
基於Qwen2.5-VL-3B-Instruct與ColBERT策略的多語言視覺檢索模型,支持動態輸入圖像分辨率和多語言文檔檢索。
文本生成圖像 支持多種語言
C
tsystems
13.29k
8
Colqwen2.5 3b Multilingual V1.0 Merged
MIT
基於Qwen2.5-VL-3B-Instruct與ColBERT策略的多語言視覺檢索模型,支持動態輸入圖像分辨率,生成ColBERT風格的多向量文本與圖像表徵。
文本生成圖像
Transformers 支持多種語言

C
tsystems
70
0
Colqwen2.5 7b Multilingual V1.0
MIT
基於Qwen2.5-VL-7B-Instruct並採用ColBERT策略的多語言視覺檢索模型,在Vidore基準測試中排名第一
文本生成圖像 支持多種語言
C
Metric-AI
4,699
7
Colqwen2.5 3b Multilingual V1.0
MIT
基於Qwen2.5-VL-3B-Instruct並採用ColBERT策略的多語言視覺檢索器,在Vidore基準測試中表現優異
文本生成圖像 支持多種語言
C
Metric-AI
2,475
7
Colqwen2.5 V0.1
MIT
基於Qwen2.5-VL-3B-Instruct與ColBERT策略的視覺檢索模型,能夠生成文本和圖像的多向量表示,用於高效文檔檢索。
文本生成圖像 英語
C
vidore
985
0
Colqwen2 7b V1.0
基於Qwen2-VL-7B-Instruct並採用ColBERT策略的視覺檢索模型,專注於高效視覺特徵索引文檔
文本生成圖像 支持多種語言
C
tsystems
172
8
Colqwen2 2b V1.0
基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型,能夠生成多向量文本與圖像表示
文本生成圖像 支持多種語言
C
tsystems
700
1
Colqwen2 7b V1.0
基於Qwen2-VL-7B-Instruct與ColBERT策略的視覺檢索模型,支持多向量文本與圖像表示
文本生成圖像 英語
C
yydxlv
25
1
Colpali V1.3 Hf
ColPali是一種基於PaliGemma-3B擴展的視覺語言模型,能高效通過視覺特徵索引文檔,生成ColBERT式多向量表示。
文本生成圖像
Transformers 英語

C
vidore
790
25
Visrag Ret
Apache-2.0
VisRAG是基於視覺語言模型(VLM)的檢索增強生成(RAG)系統,可直接將文檔作為圖像進行嵌入表徵,避免傳統文本解析導致的信息損耗。
文本生成圖像
Safetensors 英語
V
openbmb
1,294
65
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98