InstructBLIP開源視覺指令模型 - 免費使用圖文指令生成精準描述

首頁

Instructblip Flan T5 Xl 8bit Nf4

由Mediocreatmybest開發

InstructBLIP是基於BLIP-2的視覺指令調優模型，使用Flan-T5-xl作為語言模型，能夠根據圖像和文本指令生成描述。

圖像生成文本

Transformers

英語開源協議:MIT #視覺指令調優 #圖像描述生成 #多模態交互

下載量 22

發布時間 : 8/21/2023

模型概述

InstructBLIP是一個視覺-語言模型，通過指令調優增強了BLIP-2的能力，能夠根據圖像和文本提示生成準確的描述或回答相關問題。

模型特點

視覺指令調優

通過指令調優增強了模型對視覺任務的理解和響應能力

8位量化支持

支持使用bitsandbytes進行8位和nf4量化，降低資源需求

Safetensors格式

模型權重以更安全的Safetensors格式提供

模型能力

圖像描述生成

視覺問答

多模態理解

指令跟隨

使用案例

圖像理解

圖像內容描述

對圖像內容生成詳細描述

能準確識別圖像中的物體、場景和關係

視覺問答

回答關於圖像內容的特定問題

能理解問題並基於圖像內容提供準確回答

輔助功能

視覺輔助

為視障人士描述圖像內容

屬性	詳情
模型類型	視覺、圖像字幕生成、圖像轉文本
訓練數據	未提及

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Instructblip Flan T5 Xl 8bit Nf4

模型概述

模型特點

模型能力

使用案例

🚀 InstructBLIP模型

🚀 快速開始

模型描述

預期用途和侷限性

如何使用

📄 許可證

📦 模型信息