# 高分辨率圖像理解

Eurovlm 9B Preview
Apache-2.0
EuroVLM-9B-Preview是基於EuroLLM-9B長上下文版本的多模態視覺語言模型,支持多種語言和視覺任務,目前為預覽版本。
圖像生成文本 Transformers 支持多種語言
E
utter-project
156
2
Janus Pro 7B
MIT
Janus-Pro 是一種創新的自迴歸框架,統一了多模態理解與生成功能。通過解耦視覺編碼路徑,採用單一Transformer架構處理,解決了視覺編碼器在理解與生成角色間的衝突。
文本生成圖像 Transformers
J
deepseek-ai
139.64k
3,355
Paligemma2 28b Pt 896
PaliGemma 2是Google推出的視覺語言模型(VLM),融合Gemma 2語言模型和SigLIP視覺模型能力,支持圖像和文本輸入生成文本輸出。
圖像生成文本 Transformers
P
google
116
48
Paligemma2 28b Mix 448
PaliGemma 2是基於Gemma 2的視覺語言模型,支持圖像+文本輸入,輸出文本響應,適用於多種視覺語言任務。
圖像生成文本 Transformers
P
google
198
26
Paligemma2 10b Pt 896
PaliGemma 2是Google推出的視覺語言模型(VLM),融合Gemma 2能力,支持圖像和文本輸入生成文本輸出
圖像生成文本 Transformers
P
google
233
32
Paligemma2 10b Pt 448
PaliGemma 2是Google推出的升級版視覺語言模型(VLM),融合Gemma 2能力,支持圖像和文本輸入生成文本輸出。
圖像生成文本 Transformers
P
google
282
14
Paligemma2 3b Pt 448
PaliGemma 2是基於Gemma 2的視覺語言模型,支持圖像和文本輸入,生成文本輸出,適用於多種視覺語言任務。
圖像生成文本 Transformers
P
google
3,412
45
Paligemma2 3b Ft Docci 448
PaliGemma 2是Google推出的升級版視覺語言模型,結合Gemma 2和SigLIP視覺模型的能力,支持多語言視覺語言任務。
圖像生成文本 Transformers
P
google
8,765
12
Llama 3.1 8B Dragonfly V2
蜻蜓是基於Llama 3.1通過指令微調訓練的多模態視覺語言模型,支持圖像與文本的聯合理解與生成
圖像生成文本 英語
L
togethercomputer
113
1
Convllava JP 1.3b 1280
ConvLLaVA-JP是一款支持高分辨率輸入的日語視覺語言模型,能夠就輸入圖像進行對話。
圖像生成文本 Transformers 日語
C
toshi456
31
1
Cogvlm2 Llama3 Chat 19B Int4
其他
CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態對話模型,支持中英文,具備8K上下文長度和1344*1344分辨率圖像處理能力。
文本生成圖像 Transformers 英語
C
THUDM
467
28
360VL 70B
Apache-2.0
360VL是基於LLama3語言模型開發的開源大型多模態模型,具備強大的圖像理解和雙語文本支持能力。
文本生成圖像 Transformers 支持多種語言
3
qihoo360
103
10
Cogvlm2 Llama3 Chinese Chat 19B
其他
CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態大模型,支持中英雙語,具備強大的圖像理解和對話能力。
文本生成圖像 Transformers 英語
C
THUDM
118
68
Cogvlm2 Llama3 Chat 19B
其他
CogVLM2是基於Meta-Llama-3-8B-Instruct構建的多模態大模型,支持圖像理解和對話任務,具有8K上下文長度和1344x1344圖像分辨率處理能力。
文本生成圖像 Transformers 英語
C
THUDM
7,805
212
360VL 8B
Apache-2.0
360VL是基於LLama3語言模型開發的多模態模型,具備強大的圖像理解和雙語對話能力。
文本生成圖像 Transformers 支持多種語言
3
qihoo360
22
13
Paligemma 3b Pt 896
PaliGemma是一款多功能輕量級視覺語言模型(VLM),支持圖像和文本輸入,生成文本輸出,具備多語言能力。
圖像生成文本 Transformers
P
google
1,788
119
Paligemma 3b Ft Ocrvqa 448
PaliGemma是Google開發的多功能輕量級視覺語言模型(VLM),基於SigLIP視覺模型和Gemma語言模型構建,支持圖像和文本輸入,輸出文本結果。
圖像生成文本 Transformers
P
google
365
6
Xgen Mm Phi3 Mini Base R V1
Apache-2.0
XGen-MM是Salesforce AI Research開發的最新多模態大模型系列,基於BLIP的成功設計,通過基礎性增強實現了更強大、更優越的模型架構。
圖像生成文本 Transformers 英語
X
Salesforce
240
18
Xgen Mm Phi3 Mini Instruct R V1
xGen-MM是Salesforce AI Research開發的最新基礎大型多模態模型系列,基於BLIP系列改進,具有強大的圖像理解和文本生成能力。
圖像生成文本 Transformers 英語
X
Salesforce
804
186
Llava Llama 3 8b V1 1 Gguf
基於Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336模型微調的多模態模型,支持圖像理解和文本生成
圖像生成文本
L
xtuner
9,484
216
Llava Llama 3 8b V1 1 Transformers
基於Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微調的LLaVA模型,支持圖像文本到文本任務
圖像生成文本
L
xtuner
454.61k
78
Monkey
猴子模型是一種高效的大型多模態模型,通過提升圖像分辨率和改進文本標籤方法,在多個視覺任務中表現優異。
圖像生成文本 Transformers
M
echo840
308
31
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase