T

Tinyllava OpenELM 450M SigLIP 0.89B

由jiajunlong開發
TinyLLaVA 是一個小規模的多模態模型系列,該模型由 OpenELM-450M 和 SigLIP-0.89B 組成,專注於高效的視覺-語言任務處理。
下載量 102
發布時間 : 4/29/2024

模型概述

TinyLLaVA 是一個輕量級的多模態模型,結合了語言模型和視覺模型,能夠處理圖像和文本的聯合任務。

模型特點

輕量高效
模型參數規模小,適合資源受限的環境,同時性能優於部分更大規模的模型。
多模態支持
能夠同時處理圖像和文本輸入,完成視覺問答等任務。
模塊化設計
支持多種語言模型和視覺模型的組合,靈活性高。

模型能力

視覺問答
圖像描述生成
多模態理解
文本生成

使用案例

教育
視覺問答
回答關於圖像內容的問題,適用於教育場景中的互動學習。
在VQAv2數據集上達到71.74的準確率。
內容生成
圖像描述生成
為圖像生成詳細的文本描述,適用於無障礙服務或內容標註。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase