M

Moondream1

由vikhyatk開發
16億參數的多模態模型,融合SigLIP與Phi-1.5技術架構,支持圖像理解和問答任務
下載量 70.48k
發布時間 : 1/20/2024

模型概述

基於LLaVa訓練數據集構建的視覺語言模型,擅長圖像內容理解和交互式問答,適用於研究場景

模型特點

輕量高效
僅16億參數規模下實現接近70億參數模型的視覺理解能力
多模態融合
結合視覺編碼器(SigLIP)與語言模型(Phi-1.5)的優勢
中文優化
針對中文場景進行特別優化,支持中文問答交互

模型能力

圖像內容識別
視覺問答
場景理解
物體屬性分析
多輪對話

使用案例

教育研究
圖像學習輔助
解析教材插圖內容並回答相關問題
準確識別圖中書籍標題和場景細節
智能交互
場景問答系統
對用戶上傳圖片進行即時問答
能準確描述圖像中的物體、人物動作和環境特徵
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase