Unime Phi3.5 V 4.2B
MIT
UniME 是一個基於多模態大模型的通用嵌入學習模型,專注於打破模態壁壘,實現跨模態檢索和嵌入學習。
多模態對齊
Transformers 英語

U
DeepGlint-AI
54
4
So400m Long
Apache-2.0
基於SigLIP 2微調的視覺語言模型,最大文本長度從64提升至256標記
文本生成圖像
Transformers 英語

S
fancyfeast
27
3
Omniembed V0.1
MIT
基於Qwen2.5-Omni-7B構建的多模態嵌入模型,支持跨語言文本、圖像、音頻和視頻的統一嵌入表示
多模態融合
O
Tevatron
2,190
3
Nomic Embed Multimodal 3b
Nomic Embed Multimodal 3B是一款頂尖的多模態嵌入模型,專注於視覺文檔檢索任務,支持統一文本-圖像編碼,在Vidore-v2測試中達到58.8 NDCG@5的卓越性能。
文本生成圖像 支持多種語言
N
nomic-ai
3,431
11
Colnomic Embed Multimodal 3b
ColNomic Embed多模態3B是一款30億參數的多模態嵌入模型,專為視覺文檔檢索任務設計,支持多語言文本和圖像的統一編碼。
多模態融合 支持多種語言
C
nomic-ai
4,636
17
Finseer
首個專為金融時間序列預測設計的檢索器,基於檢索增強生成(RAG)框架
大型語言模型
Transformers 英語

F
TheFinAI
13
1
Nitibench Ccl Human Finetuned Bge M3
MIT
基於BAAI/bge-m3模型在泰語法律查詢數據上微調的版本,支持稠密檢索、詞法匹配和多向量交互
文本嵌入 其他
N
VISAI-AI
51
1
Llave 7B
Apache-2.0
LLaVE-7B是基於LLaVA-OneVision-7B模型的70億參數多模態嵌入模型,具備文本、圖像、多圖像和視頻的嵌入表示能力。
多模態融合
Transformers 英語

L
zhibinlan
1,389
5
Llave 2B
Apache-2.0
LLaVE-2B是基於Aquila-VL-2B模型的20億參數多模態嵌入模型,具有4K tokens的上下文窗口,支持文本、圖像、多圖像和視頻的嵌入表示。
文本生成圖像
Transformers 英語

L
zhibinlan
20.05k
45
Llave 0.5B
Apache-2.0
LLaVE是基於LLaVA-OneVision-0.5B模型的多模態嵌入模型,參數規模為0.5B,能夠對文本、圖像、多圖像和視頻進行嵌入。
多模態融合
Transformers 英語

L
zhibinlan
2,897
7
Vit Base Patch16 Siglip 512.webli
Apache-2.0
基於SigLIP架構的視覺Transformer模型,僅包含圖像編碼器部分,採用原始注意力池化機制
圖像分類
Transformers

V
timm
702
0
Taxabind Vit B 16
MIT
TaxaBind 是一個包含六種模態的多模態嵌入空間模型,專注於生態應用,支持利用分類學文本類別對物種圖像進行零樣本分類。
多模態融合
T
MVRL
3,672
0
Dse Qwen2 2b Mrl V1
Apache-2.0
DSE-QWen2-2b-MRL-V1 是一個雙編碼器模型,專為將文檔截圖編碼為密集向量以實現文檔檢索而設計。
多模態融合 支持多種語言
D
MrLight
4,447
56
Bge M3 Gguf
MIT
bge-m3嵌入模型的GGUF量化版本,適用於高效的文本嵌入任務
文本嵌入
B
lm-kit
2,885
10
E5 V
E5-V是基於多模態大語言模型的通用嵌入方法,能夠處理文本和圖像輸入並生成統一的嵌入表示。
多模態對齊
Transformers

E
royokong
5,619
22
Nomic Embed Vision V1.5
Apache-2.0
高性能視覺嵌入模型,與nomic-embed-text-v1.5共享相同的嵌入空間,支持多模態應用
文本生成圖像
Transformers 英語

N
nomic-ai
27.85k
161
Nomic Embed Vision V1
Apache-2.0
高性能視覺嵌入模型,與nomic-embed-text-v1共享相同的嵌入空間,支持多模態應用
文本生成圖像
Transformers 英語

N
nomic-ai
2,032
22
Bge M3 Onnx
MIT
BGE-M3是一個支持稠密檢索、詞彙匹配和多向量交互的嵌入模型,已轉換為ONNX格式以便兼容ONNX Runtime等框架。
文本嵌入
Transformers

B
aapot
292
29
Siglip Base Patch16 224
SigLIP是一種基於視覺-語言預訓練的模型,適用於零樣本圖像分類任務。
文本生成圖像
Transformers

S
Xenova
182
1
Clip Vit Base Patch16
OpenAI開源的CLIP模型,基於Vision Transformer架構,支持圖像與文本的跨模態理解
文本生成圖像
Transformers

C
Xenova
32.99k
9
Chinese Clip Vit Base Patch16
中文CLIP的基礎版本,採用ViT-B/16作為圖像編碼器,RoBERTa-wwm-base作為文本編碼器,在約2億中文圖文對的大規模數據集上訓練。
文本生成圖像
Transformers

C
OFA-Sys
49.02k
104
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98