# 多模态指令微调

Qwen2.5 Vl Vqa Vibook
Apache-2.0
基于Qwen2.5架构的视觉问答模型,专注于越南语场景,支持对图像相关问题进行解答。
文本生成图像 其他
Q
sunbv56
148
0
Llada V
LLaDA-V是一款基于扩散模型的视觉语言模型,性能超越其他扩散多模态大语言模型。
文本生成图像 Safetensors
L
GSAI-ML
174
8
Llama 3.2 11B Vision Radiology Mini
这是一个基于Llama架构的多模态模型,支持视觉和文本指令,经过4位量化优化。
图像生成文本
L
p4rzvl
69
0
Qwen Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct是一个32B参数规模的多模态视觉语言模型,支持图像理解和文本生成任务。
文本生成图像 英语
Q
bartowski
2,782
1
R1 VL 2B
Apache-2.0
R1-VL-2B 是通过逐步组相对策略优化(StepGRPO)训练得到的视觉语言推理模型,基于Qwen2-VL-2B-Instruct进行优化。
图像生成文本 Transformers
R
jingyiZ00
272
1
Phi 4 Multimodal Instruct Ko Asr
基于microsoft/Phi-4-multimodal-instruct微调的韩语自动语音识别(ASR)和语音翻译(AST)模型,在zeroth-korean和fleurs数据集上表现优异。
文本生成音频 Transformers 韩语
P
junnei
354
3
Smolvlm2 2.2B Instruct 4bit
Apache-2.0
SmolVLM2-2.2B-Instruct-4bit 是一个基于 MLX 格式转换的视觉语言模型,专注于视频文本到文本的任务。
图像生成文本 Transformers 英语
S
smdesai
24
1
Kowen Vol 1 Base 7B
Apache-2.0
基于Qwen2-VL-7B-Instruct的韩语视觉语言模型,支持图像转文本任务
图像生成文本 Transformers 韩语
K
Gwonee
22
1
Pixtral 12B Captioner Relaxed
Apache-2.0
基于Pixtral-12B-2409微调的多模态大语言模型,专注于生成丰富的图像描述
图像生成文本 Transformers 英语
P
unalignment
26
3
Med CXRGen I
Apache-2.0
Med-CXRGen-I是基于LLaVA-v1.5-7B微调的多模态大语言模型,专注于胸部X光影像的放射学报告生成任务,特别是印象部分的生成。
图像生成文本 Transformers
M
X-iZhang
86
1
Med CXRGen F
Apache-2.0
Med-CXRGen-F是一个基于LLaVA-v1.5-7B微调的多模态大语言模型,专门用于放射学报告生成任务,特别是胸部X光检查结果部分的自动生成。
图像生成文本 Transformers
M
X-iZhang
86
1
Llama 3.2 11B Vision Instruct Abliterated 8 Bit
这是一个基于Llama-3.2-11B-Vision-Instruct的多模态模型,支持图像和文本输入,并生成文本输出。
图像生成文本 Transformers 支持多种语言
L
mlx-community
128
0
Qwen2 VL 7B SafeRLHF
Apache-2.0
Qwen2-VL-7B-Instruct 是一个基于 SafeRLHF 数据集微调的多模态大语言模型,专注于视觉问答任务,并强调安全性。
文本生成图像 Safetensors 英语
Q
Foreshhh
1,630
2
Xgen Mm Phi3 Mini Base R V1.5
Apache-2.0
xGen-MM是由Salesforce AI Research开发的一系列最新基础大语言模型(LMMs),在BLIP系列基础上改进,融入增强功能,具有更强大的基础能力。
文本生成图像 Safetensors 英语
X
Salesforce
830
21
Xgen Mm Phi3 Mini Instruct Dpo R V1.5
Apache-2.0
xGen-MM是Salesforce AI Research开发的多模态基础模型系列,基于BLIP系列改进,在高质量图像字幕和交错图文数据上训练。
图像生成文本 英语
X
Salesforce
305
18
Chartgemma
MIT
ChartGemma是基于PaliGemma构建的图表理解与推理模型,通过视觉指令微调直接处理图表图像,捕捉视觉趋势和底层信息。
图像生成文本 Transformers 英语
C
ahmed-masry
1,243
41
Xgen Mm Phi3 Mini Instruct R V1
xGen-MM是Salesforce AI Research开发的最新基础大型多模态模型系列,基于BLIP系列改进,具有强大的图像理解和文本生成能力。
图像生成文本 Transformers 英语
X
Salesforce
804
186
Vip Llava 7b
ViP-LLaVA 是一款开源多模态聊天机器人,通过对 LLaMA/Vicuna 进行图像和区域级别指令数据的微调训练而成。
文本生成图像 Transformers
V
mucai
66.75k
8
Llava Med 7b Delta
其他
LLaVA-Med是通过视觉指令微调构建的生物医学领域多模态模型,具备处理生物医学图像和文本的能力。
文本生成图像 Transformers
L
microsoft
257
67
OTTER MPT7B Init
MIT
OTTER-MPT7B-Init是一个用于初始化Otter模型训练的权重,由Openflamingo直接转换而来。
文本生成图像 Transformers
O
luodian
53
3
Blip Image Captioning
这是一个基于 BLIP 架构的图像描述生成模型,能够为输入的图片生成简洁的文字描述。
图像生成文本 Transformers
B
nnpy
17
6
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase