moondream1オープンソース多モーダルモデル - 無料でデプロイ可能、画像理解と質疑応答タスクをサポート

ホーム

Moondream1

vikhyatkによって開発

16億パラメータのマルチモーダルモデル、SigLIPとPhi-1.5技術アーキテクチャを融合、画像理解と質問応答タスクをサポート

画像生成テキスト

Transformers

英語#視覚質問応答 #軽量マルチモーダル #中国語画像理解

ダウンロード数 70.48k

リリース時間 : 1/20/2024

モデル概要

LLaVaトレーニングデータセットに基づく視覚言語モデル、画像内容理解と対話型質問応答に優れ、研究シナリオに適している

モデル特徴

軽量で効率的

わずか16億パラメータ規模で70億パラメータモデルに近い視覚理解能力を実現

マルチモーダル融合

視覚エンコーダ(SigLIP)と言語モデル(Phi-1.5)の利点を組み合わせ

中国語最適化

中国語シナリオ向けに特別に最適化、中国語の質問応答インタラクションをサポート

モデル能力

画像内容認識

視覚質問応答

シーン理解

物体属性分析

マルチターン対話

使用事例

教育研究

画像学習支援

教材の挿絵内容を解析し関連質問に回答

図中の書籍タイトルやシーン詳細を正確に認識

インテリジェントインタラクション

シーン質問応答システム

ユーザーアップロード画像に対するリアルタイム質問応答

画像中の物体、人物動作、環境特徴を正確に記述可能

🚀 🌔 moondream1

@vikhyatkによって、SigLIP、Phi-1.5、およびLLaVaの学習データセットを使用して構築された16億パラメータのモデルです。このモデルは研究目的のみで公開されており、商用利用は許可されていません。

Huggingface Spacesで試してみてください！

🚀 クイックスタート

📦 インストール

pip install transformers timm einops

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, CodeGenTokenizerFast as Tokenizer
from PIL import Image

model_id = "vikhyatk/moondream1"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = Tokenizer.from_pretrained(model_id)

image = Image.open('<IMAGE_PATH>')
enc_image = model.encode_image(image)
print(model.answer_question(enc_image, "<QUESTION>", tokenizer))

📚 ドキュメント

🔍 ベンチマーク

モデル	パラメータ	VQAv2	GQA	TextVQA
LLaVA-1.5	133億	80.0	63.3	61.3
LLaVA-1.5	73億	78.5	62.0	58.2
moondream1	16億	74.7	57.9	35.6

💡 サンプル例

画像	サンプル
	この本のタイトルは何ですか？深層学習の小さな本この本について何か教えてください。画像の本は「深層学習の小さな本」と題されています。これは深層学習の主題に関する情報や指示を提供するガイドまたはマニュアルのようです。本は小さく薄いと説明されており、持ち運びや読みやすいです。本を持っている人が景色の見える生活空間または作業空間にいることを示唆する景色の見える部屋に置かれています。本の内容は、タイトルが深層学習の高度な概念に焦点を当てていることから、複雑である可能性があります。人はどこに立っていますか？人はバルコニーまたはデッキの外に立っています。
	女の子が持っている食べ物は何ですか？女の子はハンバーガーを持っています。女性の髪の色は何ですか？女性の髪の色は白です。画像の女の子は何をしていますか？画像の女の子はハンバーガーを食べています。
	電車の色は何ですか？電車の色は赤です。画像のバスは何をしていますか？画像のバスは交差点を通過しながら市内の通りを走行しています。画像にある公共交通機関は何ですか？画像には公共交通機関として赤い電車またはトロリーがあります。
	女の子は何を見ていますか？女の子は鏡の中の自分の姿を見ています。女性の髪の色は何ですか？女性の髪の色は茶色です。女性は鏡の前で何をしていますか？女性は鏡の前で髪を整えています。
	犬の攻撃的な行動の原因は何か？犬の攻撃的な行動（うなり声を出したり、歯をむき出したり、鋭い歯を見せたりすること）にはさまざまな原因が考えられます。犬が環境の中の何か（他の動物、大きな音、近くの人など）に対して脅威を感じていたり、怖がっていたり、防御的である可能性があります。あるいは、犬が飼い主から受けた命令に反応しているか、不快感や痛みを感じているために攻撃的な行動を示している可能性もあります。犬の攻撃的な行動の根本的な原因を判断し、そのニーズや懸念に対応するために、犬の体勢や状況を観察することが重要です。写真の犬は何種類ですか？写真の犬は小さな黒と白のチワワです。