# 高精度图像描述

Pixelreasoner RL V1
Apache-2.0
PixelReasoner是一个基于Qwen2.5-VL-7B-Instruct的视觉语言模型,采用好奇心驱动强化学习训练,专注于图像文本到文本的任务。
图像生成文本 Transformers 英语
P
TIGER-Lab
112
3
Llama3.2 11B Vision Instruct INT4 GPTQ
Llama 3.2-Vision是Meta开发的多模态大语言模型,具备图像推理和文本生成能力,支持视觉识别、图像描述和问答等任务。
图像生成文本 Transformers 支持多种语言
L
fahadh4ilyas
1,770
1
Amoral Gemma3 12B Vision
基于soob3123/amoral-gemma3-12B的视觉增强版本,结合了Gemma3-12B大语言模型与视觉编码器,支持多模态任务
图像生成文本 Transformers 英语
A
gghfez
25
2
Qwen2.5 VL 3B Instruct Quantized.w4a16
Apache-2.0
Qwen2.5-VL-3B-Instruct的量化版本,权重量化为INT4,激活量化为FP16,适用于视觉-文本任务的高效推理。
文本生成图像 Transformers 英语
Q
RedHatAI
167
1
Asagi 4B
Apache-2.0
Asagi-4B是一个大规模日语视觉语言模型(VLM),基于广泛的日语数据集训练而成,融合了多样化的数据来源。
图像生成文本 Transformers 日语
A
MIL-UT
29
4
Llama 3.2 11B Vision Instruct
Llama 3.2-Vision是Meta开发的多模态大型语言模型,支持图像和文本输入,能够进行视觉识别、图像推理和描述等任务。
图像生成文本 Transformers 支持多种语言
L
alpindale
3,057
15
Pixtral 12b
Apache-2.0
Pixtral是一个基于Mistral架构的多模态模型,能够处理图像和文本输入,生成详细的文本描述。
图像生成文本 Transformers
P
mistral-community
31.93k
90
Sharecaptioner
ShareCaptioner是一个开源的图像描述生成模型,基于改进的InternLM-Xcomposer-7B基础模型,在GPT4-Vision辅助的ShareGPT4V数据集上微调,能生成高质量的图像描述。
图像生成文本 Transformers
S
Lin-Chen
401
56
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase