Eurovlm 9B Preview
Apache-2.0
EuroVLM-9B-Preview是基於EuroLLM-9B長上下文版本的多模態視覺語言模型,支持多種語言和視覺任務,目前為預覽版本。
圖像生成文本
Transformers 支持多種語言

E
utter-project
156
2
Janus Pro 7B
MIT
Janus-Pro 是一種創新的自迴歸框架,統一了多模態理解與生成功能。通過解耦視覺編碼路徑,採用單一Transformer架構處理,解決了視覺編碼器在理解與生成角色間的衝突。
文本生成圖像
Transformers

J
deepseek-ai
139.64k
3,355
Paligemma2 28b Pt 896
PaliGemma 2是Google推出的視覺語言模型(VLM),融合Gemma 2語言模型和SigLIP視覺模型能力,支持圖像和文本輸入生成文本輸出。
圖像生成文本
Transformers

P
google
116
48
Paligemma2 28b Mix 448
PaliGemma 2是基於Gemma 2的視覺語言模型,支持圖像+文本輸入,輸出文本響應,適用於多種視覺語言任務。
圖像生成文本
Transformers

P
google
198
26
Paligemma2 10b Pt 896
PaliGemma 2是Google推出的視覺語言模型(VLM),融合Gemma 2能力,支持圖像和文本輸入生成文本輸出
圖像生成文本
Transformers

P
google
233
32
Paligemma2 10b Pt 448
PaliGemma 2是Google推出的升級版視覺語言模型(VLM),融合Gemma 2能力,支持圖像和文本輸入生成文本輸出。
圖像生成文本
Transformers

P
google
282
14
Paligemma2 3b Pt 448
PaliGemma 2是基於Gemma 2的視覺語言模型,支持圖像和文本輸入,生成文本輸出,適用於多種視覺語言任務。
圖像生成文本
Transformers

P
google
3,412
45
Paligemma2 3b Ft Docci 448
PaliGemma 2是Google推出的升級版視覺語言模型,結合Gemma 2和SigLIP視覺模型的能力,支持多語言視覺語言任務。
圖像生成文本
Transformers

P
google
8,765
12
Llama 3.1 8B Dragonfly V2
蜻蜓是基於Llama 3.1通過指令微調訓練的多模態視覺語言模型,支持圖像與文本的聯合理解與生成
圖像生成文本 英語
L
togethercomputer
113
1
Convllava JP 1.3b 1280
ConvLLaVA-JP是一款支持高分辨率輸入的日語視覺語言模型,能夠就輸入圖像進行對話。
圖像生成文本
Transformers 日語

C
toshi456
31
1
Cogvlm2 Llama3 Chat 19B Int4
其他
CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態對話模型,支持中英文,具備8K上下文長度和1344*1344分辨率圖像處理能力。
文本生成圖像
Transformers 英語

C
THUDM
467
28
360VL 70B
Apache-2.0
360VL是基於LLama3語言模型開發的開源大型多模態模型,具備強大的圖像理解和雙語文本支持能力。
文本生成圖像
Transformers 支持多種語言

3
qihoo360
103
10
Cogvlm2 Llama3 Chinese Chat 19B
其他
CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態大模型,支持中英雙語,具備強大的圖像理解和對話能力。
文本生成圖像
Transformers 英語

C
THUDM
118
68
Cogvlm2 Llama3 Chat 19B
其他
CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態大模型,支持圖像理解和對話任務,具有8K上下文長度和1344x1344圖像分辨率處理能力。
文本生成圖像
Transformers 英語

C
THUDM
7,805
212
360VL 8B
Apache-2.0
360VL是基於LLama3語言模型開發的多模態模型,具備強大的圖像理解和雙語對話能力。
文本生成圖像
Transformers 支持多種語言

3
qihoo360
22
13
Paligemma 3b Pt 896
PaliGemma是一款多功能輕量級視覺語言模型(VLM),支持圖像和文本輸入,生成文本輸出,具備多語言能力。
圖像生成文本
Transformers

P
google
1,788
119
Paligemma 3b Ft Ocrvqa 448
PaliGemma是Google開發的多功能輕量級視覺語言模型(VLM),基於SigLIP視覺模型和Gemma語言模型構建,支持圖像和文本輸入,輸出文本結果。
圖像生成文本
Transformers

P
google
365
6
Xgen Mm Phi3 Mini Base R V1
Apache-2.0
XGen-MM是Salesforce AI Research開發的最新多模態大模型系列,基於BLIP的成功設計,通過基礎性增強實現了更強大、更優越的模型架構。
圖像生成文本
Transformers 英語

X
Salesforce
240
18
Xgen Mm Phi3 Mini Instruct R V1
xGen-MM是Salesforce AI Research開發的最新基礎大型多模態模型系列,基於BLIP系列改進,具有強大的圖像理解和文本生成能力。
圖像生成文本
Transformers 英語

X
Salesforce
804
186
Llava Llama 3 8b V1 1 Gguf
基於Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336模型微調的多模態模型,支持圖像理解和文本生成
圖像生成文本
L
xtuner
9,484
216
Llava Llama 3 8b V1 1 Transformers
基於Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微調的LLaVA模型,支持圖像文本到文本任務
圖像生成文本
L
xtuner
454.61k
78
Monkey
猴子模型是一種高效的大型多模態模型,通過提升圖像分辨率和改進文本標籤方法,在多個視覺任務中表現優異。
圖像生成文本
Transformers

M
echo840
308
31
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98