# 視覺指令調優

Llava MORE Llama 3 1 8B Finetuning
Apache-2.0
LLaVA-MORE是基於LLaVA架構的增強版本,集成了LLaMA 3.1作為語言模型,專注於圖像到文本的任務。
圖像生成文本 Transformers
L
aimagelab
215
9
Instructblip Flan T5 Xl 8bit Nf4
MIT
InstructBLIP是基於BLIP-2的視覺指令調優版本,結合視覺和語言處理能力,能夠根據圖像和文本指令生成響應。
圖像生成文本 Transformers 英語
I
benferns
20
0
Instructblip Flan T5 Xl 8bit Nf4
MIT
InstructBLIP是基於BLIP-2的視覺指令調優模型,使用Flan-T5-xl作為語言模型,能夠根據圖像和文本指令生成描述。
圖像生成文本 Transformers 英語
I
Mediocreatmybest
22
0
Instructblip Flan T5 Xxl 8bit Nf4
MIT
InstructBLIP是BLIP-2的視覺指令調優版本,結合了視覺和語言模型,能夠根據圖像和文本指令生成描述或回答問題。
圖像生成文本 Transformers 英語
I
Mediocreatmybest
22
1
Instructblip Flan T5 Xl 8bit
MIT
InstructBLIP是BLIP-2的視覺指令調優版本,基於Flan-T5-xl語言模型,用於圖像到文本生成任務。
圖像生成文本 Transformers 英語
I
Mediocreatmybest
18
1
Instructblip Vicuna 13b
其他
InstructBLIP是BLIP-2的視覺指令調優版本,基於Vicuna-13b語言模型,用於視覺語言任務。
圖像生成文本 Transformers 英語
I
Salesforce
1,251
42
Instructblip Flan T5 Xxl
MIT
InstructBLIP是BLIP-2經過視覺指令調優的版本,能夠根據圖像和文本指令生成描述或回答
圖像生成文本 Transformers 英語
I
Salesforce
937
21
Instructblip Vicuna 7b
其他
InstructBLIP是基於BLIP-2的視覺指令調優版本,採用Vicuna-7B作為語言模型,專注於視覺語言任務。
圖像生成文本 Transformers 英語
I
Salesforce
20.99k
91
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase