# 視覺指令微調

Mistral Small 3.1 24B Instruct 2503 GGUF
Apache-2.0
這是一個基於Mistral-Small-3.1-24B-Instruct-2503的視覺增強版本,支持圖像文本生成文本任務。
圖像生成文本
M
ggml-org
670
3
General Reasoner 14B Preview
Apache-2.0
基於Qwen2.5-14B基礎模型和VisualWebInstruct-Verified數據集訓練的多模態推理模型,支持英語任務處理。
大型語言模型 Transformers 英語
G
TIGER-Lab
33
3
Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct 是一個多模態視覺語言模型,支持圖像和文本的聯合理解與生成任務。
圖像生成文本 英語
Q
samgreen
25.59k
6
Llama 3.2 Vision Instruct Bpmncoder
Apache-2.0
基於Unsloth優化的Llama 3.2 11B視覺指令微調模型,採用4位量化技術,訓練速度提升2倍
文本生成圖像 Transformers 英語
L
utkarshkingh
40
1
Qwen2.5 VL 72B Instruct GGUF
其他
Qwen2.5-VL-72B-Instruct 是一個多模態視覺語言模型,支持圖像和文本的交互式生成任務。
圖像生成文本 英語
Q
samgreen
2,073
1
Llama 3.2 11B Vision Medical
Apache-2.0
基於unsloth/Llama-3.2-11B-Vision-Instruct微調的模型,使用Unsloth和Huggingface的TRL庫進行訓練,速度提升了2倍。
文本生成圖像 Transformers 英語
L
Varu96
25
1
Llama 3.2 11B Vision Invoices Mini
Apache-2.0
基於unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit微調的多模態大語言模型,支持視覺指令理解任務,使用Unsloth優化訓練速度提升2倍。
文本生成圖像 Transformers 英語
L
atulSethi
46
1
Llama 3.2 11B Vision Radiology Mini
Apache-2.0
基於Unsloth優化的視覺指令微調模型,支持多模態任務處理
文本生成圖像 Transformers 英語
L
mervinpraison
39
2
Vsft Llava 1.5 7b Hf Trl
基於LLaVA-1.5-7B模型通過視覺監督微調(VSFT)訓練的多模態視覺語言模型,支持圖像理解和對話生成
圖像生成文本 Transformers 英語
V
HuggingFaceH4
65
14
Llava V1.5 Mlp2x 336px Pretrain Vicuna 13b V1.5
LLaVA 是一個開源多模態聊天機器人,通過對 LLaMA/Vicuna 在 GPT 生成的多模態指令跟隨數據上進行微調訓練而成。
文本生成圖像 Transformers
L
liuhaotian
66
2
Llava Pretrain Vicuna 7b V1.3
LLaVA 是一個開源多模態聊天機器人,基於 LLaMA/Vicuna 在 GPT 生成的多模態指令跟隨數據上進行微調訓練而成。
文本生成圖像 Transformers
L
liuhaotian
54
1
Chinese LLaVA Cllama2
Openrail
開源可商用的中英文雙語視覺-語言助手,支持中英文視覺-文本多模態對話的開源商用對話模型。
文本生成圖像 Transformers 支持多種語言
C
LinkSoul
51
19
Instructblip Flan T5 Xl
MIT
InstructBLIP是BLIP-2經過視覺指令微調的版本,能夠執行視覺語言任務,如圖像描述生成和視覺問答。
圖像生成文本 Transformers 英語
I
Salesforce
16.89k
29
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase