# 多模態指令微調

Qwen2.5 Vl Vqa Vibook
Apache-2.0
基於Qwen2.5架構的視覺問答模型,專注于越南語場景,支持對圖像相關問題進行解答。
文本生成圖像 其他
Q
sunbv56
148
0
Llada V
LLaDA-V是一款基於擴散模型的視覺語言模型,性能超越其他擴散多模態大語言模型。
文本生成圖像 Safetensors
L
GSAI-ML
174
8
Llama 3.2 11B Vision Radiology Mini
這是一個基於Llama架構的多模態模型,支持視覺和文本指令,經過4位量化優化。
圖像生成文本
L
p4rzvl
69
0
Qwen Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct是一個32B參數規模的多模態視覺語言模型,支持圖像理解和文本生成任務。
文本生成圖像 英語
Q
bartowski
2,782
1
R1 VL 2B
Apache-2.0
R1-VL-2B 是通過逐步組相對策略優化(StepGRPO)訓練得到的視覺語言推理模型,基於Qwen2-VL-2B-Instruct進行優化。
圖像生成文本 Transformers
R
jingyiZ00
272
1
Phi 4 Multimodal Instruct Ko Asr
基於microsoft/Phi-4-multimodal-instruct微調的韓語自動語音識別(ASR)和語音翻譯(AST)模型,在zeroth-korean和fleurs數據集上表現優異。
文本生成音頻 Transformers 韓語
P
junnei
354
3
Smolvlm2 2.2B Instruct 4bit
Apache-2.0
SmolVLM2-2.2B-Instruct-4bit 是一個基於 MLX 格式轉換的視覺語言模型,專注於視頻文本到文本的任務。
圖像生成文本 Transformers 英語
S
smdesai
24
1
Kowen Vol 1 Base 7B
Apache-2.0
基於Qwen2-VL-7B-Instruct的韓語視覺語言模型,支持圖像轉文本任務
圖像生成文本 Transformers 韓語
K
Gwonee
22
1
Pixtral 12B Captioner Relaxed
Apache-2.0
基於Pixtral-12B-2409微調的多模態大語言模型,專注於生成豐富的圖像描述
圖像生成文本 Transformers 英語
P
unalignment
26
3
Med CXRGen I
Apache-2.0
Med-CXRGen-I是基於LLaVA-v1.5-7B微調的多模態大語言模型,專注於胸部X光影像的放射學報告生成任務,特別是印象部分的生成。
圖像生成文本 Transformers
M
X-iZhang
86
1
Med CXRGen F
Apache-2.0
Med-CXRGen-F是一個基於LLaVA-v1.5-7B微調的多模態大語言模型,專門用於放射學報告生成任務,特別是胸部X光檢查結果部分的自動生成。
圖像生成文本 Transformers
M
X-iZhang
86
1
Qwen2 VL 7B SafeRLHF
Apache-2.0
Qwen2-VL-7B-Instruct 是一個基於 SafeRLHF 數據集微調的多模態大語言模型,專注於視覺問答任務,並強調安全性。
文本生成圖像 Safetensors 英語
Q
Foreshhh
1,630
2
Xgen Mm Phi3 Mini Instruct Dpo R V1.5
Apache-2.0
xGen-MM是Salesforce AI Research開發的多模態基礎模型系列,基於BLIP系列改進,在高質量圖像字幕和交錯圖文數據上訓練。
圖像生成文本 英語
X
Salesforce
305
18
Chartgemma
MIT
ChartGemma是基於PaliGemma構建的圖表理解與推理模型,通過視覺指令微調直接處理圖表圖像,捕捉視覺趨勢和底層信息。
圖像生成文本 Transformers 英語
C
ahmed-masry
1,243
41
Xgen Mm Phi3 Mini Instruct R V1
xGen-MM是Salesforce AI Research開發的最新基礎大型多模態模型系列,基於BLIP系列改進,具有強大的圖像理解和文本生成能力。
圖像生成文本 Transformers 英語
X
Salesforce
804
186
Vip Llava 7b
ViP-LLaVA 是一款開源多模態聊天機器人,通過對 LLaMA/Vicuna 進行圖像和區域級別指令數據的微調訓練而成。
文本生成圖像 Transformers
V
mucai
66.75k
8
Llava Med 7b Delta
其他
LLaVA-Med是通過視覺指令微調構建的生物醫學領域多模態模型,具備處理生物醫學圖像和文本的能力。
文本生成圖像 Transformers
L
microsoft
257
67
OTTER MPT7B Init
MIT
OTTER-MPT7B-Init是一個用於初始化Otter模型訓練的權重,由Openflamingo直接轉換而來。
文本生成圖像 Transformers
O
luodian
53
3
Blip Image Captioning
這是一個基於 BLIP 架構的圖像描述生成模型,能夠為輸入的圖片生成簡潔的文字描述。
圖像生成文本 Transformers
B
nnpy
17
6
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase