# 輕量級VLM

Smolvlm 500M Anime Caption V0.2
Apache-2.0
專注於描述動漫風格圖像的視覺語言模型,基於SmolVLM-500M-Base微調
圖像生成文本 Safetensors 英語
S
Andres77872
17
0
Smolvlm 500M Anime Caption V0.1
Apache-2.0
專注於描述動漫風格圖像的視覺語言模型,基於SmolVLM-500M-Base微調,訓練數據包含18萬組由大語言模型生成的合成圖像/字幕對。
圖像生成文本 英語
S
Andres77872
61
0
Granite Vision 3.2 2b
Apache-2.0
granite-vision-3.2-2b是一款緊湊高效的視覺語言模型,專為視覺文檔理解設計,能夠從表格、圖表、信息圖等中自動提取內容。
圖像生成文本 Transformers 英語
G
unsloth
43
1
Paligemma 3b Ft Science Qa 448
PaliGemma是由Google開發的30億參數輕量級視覺語言模型,基於SigLIP視覺模型和Gemma語言模型構建,支持圖像和文本輸入生成文本輸出。
圖像生成文本 Transformers
P
google
15
2
Paligemma 3b Pt 448
PaliGemma是一款輕量級多功能視覺語言模型,基於SigLIP視覺模型和Gemma語言模型構建,支持多語言圖像文本交互任務。
圖像生成文本 Transformers
P
google
2,708
29
Paligemma 3b Pt 896
PaliGemma是一款多功能輕量級視覺語言模型(VLM),支持圖像和文本輸入,生成文本輸出,具備多語言能力。
圖像生成文本 Transformers
P
google
1,788
119
Paligemma 3b Mix 448
PaliGemma是一款多功能輕量級視覺語言模型(VLM),基於SigLIP視覺模型和Gemma語言模型構建,支持圖像和文本輸入並生成文本輸出
圖像生成文本 Transformers
P
google
5,488
109
Paligemma 3b Ft Docvqa 896
PaliGemma是Google開發的輕量級視覺語言模型,基於SigLIP視覺模型和Gemma語言模型構建,支持多語言圖像文本理解與生成。
圖像生成文本 Transformers
P
google
519
9
Paligemma 3b Ft Refcoco Seg 896
PaliGemma是Google開發的輕量級視覺語言模型,基於SigLIP視覺模型和Gemma語言模型構建,支持多語言文本生成和視覺理解任務。
圖像生成文本 Transformers
P
google
20
6
Paligemma 3b Mix 224
PaliGemma是一款多功能、輕量級的視覺語言模型(VLM),基於SigLIP視覺模型和Gemma語言模型構建,支持圖像和文本輸入,輸出文本結果。
文本生成圖像 Transformers
P
google
143.03k
75
Paligemma 3b Pt 224
PaliGemma是一款多功能輕量級視覺語言模型(VLM),基於SigLIP視覺模型和Gemma語言模型構建,能同時處理圖像和文本輸入並生成文本輸出。
圖像生成文本 Transformers
P
google
38.40k
318
Paligemma 3b Ft Vqav2 448
PaliGemma是Google開發的輕量級視覺語言模型,結合圖像理解和文本生成能力,支持多語言任務。
文本生成圖像 Transformers
P
google
121
17
Paligemma 3b Ft Ocrvqa 448
PaliGemma是Google開發的多功能輕量級視覺語言模型(VLM),基於SigLIP視覺模型和Gemma語言模型構建,支持圖像和文本輸入,輸出文本結果。
圖像生成文本 Transformers
P
google
365
6
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase