moondream1開源多模態模型 - 免費部署，支持圖像理解與問答任務

首頁

Moondream1

由vikhyatk開發

16億參數的多模態模型，融合SigLIP與Phi-1.5技術架構，支持圖像理解和問答任務

圖像生成文本

Transformers

英語#視覺問答 #輕量級多模態 #中文圖像理解

下載量 70.48k

發布時間 : 1/20/2024

模型概述

基於LLaVa訓練數據集構建的視覺語言模型，擅長圖像內容理解和交互式問答，適用於研究場景

模型特點

輕量高效

僅16億參數規模下實現接近70億參數模型的視覺理解能力

多模態融合

結合視覺編碼器(SigLIP)與語言模型(Phi-1.5)的優勢

中文優化

針對中文場景進行特別優化，支持中文問答交互

模型能力

圖像內容識別

視覺問答

場景理解

物體屬性分析

多輪對話

使用案例

教育研究

圖像學習輔助

解析教材插圖內容並回答相關問題

準確識別圖中書籍標題和場景細節

智能交互

場景問答系統

對用戶上傳圖片進行即時問答

能準確描述圖像中的物體、人物動作和環境特徵

🚀 🌔 moondream1

moondream1是一個擁有16億參數的模型，由@vikhyatk使用SigLIP、Phi - 1.5和LLaVa訓練數據集構建而成。該模型僅用於研究目的，禁止商業使用。

你可以在Huggingface Spaces上體驗這個模型！

🚀 快速開始

安裝依賴

pip install transformers timm einops

代碼示例

from transformers import AutoModelForCausalLM, CodeGenTokenizerFast as Tokenizer
from PIL import Image

model_id = "vikhyatk/moondream1"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = Tokenizer.from_pretrained(model_id)

image = Image.open('<IMAGE_PATH>')
enc_image = model.encode_image(image)
print(model.answer_question(enc_image, "<QUESTION>", tokenizer))

📊 基準測試

模型	參數	VQAv2	GQA	TextVQA
LLaVA - 1.5	133億	80.0	63.3	61.3
LLaVA - 1.5	73億	78.5	62.0	58.2
moondream1	16億	74.7	57.9	35.6

💻 使用示例

示例1

圖片	示例
	這本書的書名是什麼？《深度學習小書》關於這本書你能告訴我什麼？圖片中的書名為《深度學習小書》。它似乎是一本指南或手冊，提供有關深度學習主題的信息和說明。這本書被描述為又小又薄，便於攜帶和閱讀。它放在一個能看到外面景色的房間裡，這表明拿著這本書的人可能在一個有風景可看的生活或工作空間裡。正如書名所暗示的那樣，這本書的內容可能很複雜，專注於深度學習的高級概念。這個人站在哪裡？這個人站在外面的陽臺或露臺上。

圖片

示例

這本書的書名是什麼？
《深度學習小書》

關於這本書你能告訴我什麼？
圖片中的書名為《深度學習小書》。它似乎是一本指南或手冊，提供有關深度學習主題的信息和說明。這本書被描述為又小又薄，便於攜帶和閱讀。它放在一個能看到外面景色的房間裡，這表明拿著這本書的人可能在一個有風景可看的生活或工作空間裡。正如書名所暗示的那樣，這本書的內容可能很複雜，專注於深度學習的高級概念。

這個人站在哪裡？
這個人站在外面的陽臺或露臺上。

示例2

圖片	示例
	女孩拿著什麼食物？女孩拿著一個漢堡。女人的頭髮是什麼顏色？女人的頭髮是白色的。圖片中的女孩在做什麼？圖片中的女孩正在吃漢堡。

示例3

圖片	示例
	火車是什麼顏色的？火車是紅色的。圖片中的公交車在做什麼？圖片中的公交車正行駛在城市街道上，穿過一個十字路口。圖片中有哪種公共交通工具？圖片中的公共交通工具是一輛紅色的火車或有軌電車。

示例4

圖片	示例
	女孩在看什麼？女孩在看鏡子裡自己的倒影。女人的頭髮是什麼顏色？女人的頭髮是棕色的。女人在鏡子前做什麼？女人正在鏡子前整理頭髮。

示例5

圖片	示例
	狗表現出攻擊行為的原因可能是什麼？狗的攻擊行為，包括咆哮、露出牙齒和展示鋒利的牙齒，可能有多種原因。有可能是狗感到受到威脅、害怕，或者對周圍環境中的某些事物（如另一隻動物、嘈雜的聲音或附近的人）感到防禦。或者，狗可能是對主人發出的命令做出反應，也可能是身體不適或疼痛導致它表現出攻擊行為。觀察狗的肢體語言和周圍環境，以確定其攻擊行為的根本原因，並相應地採取措施滿足它的需求或解決問題，這一點至關重要。圖片中的狗是什麼品種？圖片中的狗是一隻黑白相間的小吉娃娃。

圖片

示例

狗表現出攻擊行為的原因可能是什麼？
狗的攻擊行為，包括咆哮、露出牙齒和展示鋒利的牙齒，可能有多種原因。有可能是狗感到受到威脅、害怕，或者對周圍環境中的某些事物（如另一隻動物、嘈雜的聲音或附近的人）感到防禦。或者，狗可能是對主人發出的命令做出反應，也可能是身體不適或疼痛導致它表現出攻擊行為。觀察狗的肢體語言和周圍環境，以確定其攻擊行為的根本原因，並相應地採取措施滿足它的需求或解決問題，這一點至關重要。

圖片中的狗是什麼品種？
圖片中的狗是一隻黑白相間的小吉娃娃。