N

Nanollava

由qnguyen3開發
nanoLLaVA是一款1B參數的視覺語言模型,專為邊緣設備設計,具有高效運行的特點。
下載量 2,851
發布時間 : 4/4/2024

模型概述

nanoLLaVA是一個小型但功能強大的視覺語言模型,基於Qwen1.5-0.5B和SigLIP視覺編碼器構建,適用於多模態任務。

模型特點

高效邊緣計算
專為在邊緣設備上高效運行而設計,參數規模小但性能強大。
多模態能力
結合視覺和語言理解能力,可處理圖像和文本的聯合任務。
改進版本
nanoLLaVA-1.5版本已發佈,性能大幅提升。

模型能力

視覺問答
圖像描述生成
多模態理解
文本生成
圖像分析

使用案例

智能助手
圖像內容描述
根據用戶提供的圖像生成詳細描述
能準確識別圖像中的內容和上下文關係
教育
科學問題解答
回答與圖像相關的科學問題
在ScienceQA數據集上達到58.97%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase