prism-qwen25-extra-dinosiglip-224px-0_5b開源多模態模型

首頁

Prism Qwen25 Extra Dinosiglip 224px 0 5b

由Stanford-ILIAD開發

一個在Llava-1.5-Instruct數據集上訓練完成的多模態視覺語言模型，兼容Prismatic版本。

圖像生成文本

Transformers

英語開源協議:MIT #視覺語言指令微調 #多模態小模型 #Llava兼容架構

下載量 738

發布時間 : 12/12/2024

模型概述

該模型基於Qwen 2.5 0.5B架構，專注於圖像文本到文本的轉換任務，適用於機器人技術和多模態應用場景。

模型特點

多模態能力

結合視覺和語言處理能力，實現圖像到文本的轉換。

輕量級架構

基於0.5B參數的Qwen 2.5骨幹網絡，保持較小體積的同時提供良好性能。

機器人技術優化

特別適用於機器人技術領域的視覺語言任務。

模型能力

圖像理解

文本生成

多模態推理

視覺問答

使用案例

機器人技術

視覺導航指令生成

根據環境圖像生成導航指令

教育

圖像描述生成

為視覺障礙用戶生成圖像描述

屬性	詳情
模型類型	圖像文本生成文本模型
訓練數據	Llava-1.5-Instruct數據集
標籤	機器人、視覺語言模型、圖像文本生成文本、多模態、預訓練
管道標籤	圖像文本生成文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Prism Qwen25 Extra Dinosiglip 224px 0 5b

模型概述

模型特點

模型能力

使用案例

🚀 Prism with Qwen 2.5 0.5B backbone (Prismatic-Compatible Version)

🚀 快速開始

📄 許可證

📚 引用信息