# 多语言图像描述

Llama 3.2 11B Vision Instruct GGUF
Llama-3.2-11B-Vision-Instruct 是一个支持多语言的视觉-语言模型,可用于图像文本到文本的转换任务。
图像生成文本 Transformers 支持多种语言
L
pbatra
172
1
Paligemma2 3b Mix 224
PaliGemma 2是Google开发的升级版视觉语言模型,结合了Gemma 2的能力,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本 Transformers
P
google
15.23k
28
Imgcap Soli
Apache-2.0
一个基于transformers库的图像转文本模型,支持将图像内容转换为描述性文本。
图像生成文本 Transformers 支持多种语言
I
jingjietan
17
1
Paligemma 3b Ft Science Qa 448
PaliGemma是由Google开发的30亿参数轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入生成文本输出。
图像生成文本 Transformers
P
google
15
2
Paligemma 3b Mix 448
PaliGemma是一款多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入并生成文本输出
图像生成文本 Transformers
P
google
5,488
109
Paligemma 3b Ft Docvqa 896
PaliGemma是Google开发的轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言图像文本理解与生成。
图像生成文本 Transformers
P
google
519
9
Paligemma 3b Ft Vqav2 448
PaliGemma是Google开发的轻量级视觉语言模型,结合图像理解和文本生成能力,支持多语言任务。
文本生成图像 Transformers
P
google
121
17
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase