# 多語言圖像描述

Llama 3.2 11B Vision Instruct GGUF
Llama-3.2-11B-Vision-Instruct 是一個支持多語言的視覺-語言模型,可用於圖像文本到文本的轉換任務。
圖像生成文本 Transformers 支持多種語言
L
pbatra
172
1
Paligemma2 3b Mix 224
PaliGemma 2是Google開發的升級版視覺語言模型,結合了Gemma 2的能力,支持圖像和文本輸入,生成文本輸出,適用於多種視覺語言任務。
圖像生成文本 Transformers
P
google
15.23k
28
Imgcap Soli
Apache-2.0
一個基於transformers庫的圖像轉文本模型,支持將圖像內容轉換為描述性文本。
圖像生成文本 Transformers 支持多種語言
I
jingjietan
17
1
Paligemma 3b Ft Science Qa 448
PaliGemma是由Google開發的30億參數輕量級視覺語言模型,基於SigLIP視覺模型和Gemma語言模型構建,支持圖像和文本輸入生成文本輸出。
圖像生成文本 Transformers
P
google
15
2
Paligemma 3b Mix 448
PaliGemma是一款多功能輕量級視覺語言模型(VLM),基於SigLIP視覺模型和Gemma語言模型構建,支持圖像和文本輸入並生成文本輸出
圖像生成文本 Transformers
P
google
5,488
109
Paligemma 3b Ft Docvqa 896
PaliGemma是Google開發的輕量級視覺語言模型,基於SigLIP視覺模型和Gemma語言模型構建,支持多語言圖像文本理解與生成。
圖像生成文本 Transformers
P
google
519
9
Paligemma 3b Ft Vqav2 448
PaliGemma是Google開發的輕量級視覺語言模型,結合圖像理解和文本生成能力,支持多語言任務。
文本生成圖像 Transformers
P
google
121
17
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase