moondream2 - llamafileオープンソースビジュアル言語モデル - エッジデバイスでの高効率な動作と簡便なデプロイ

ホーム

Moondream2 Llamafile

cjpaisによって開発

moondream2はエッジデバイスで効率的に動作するように設計された小型視覚言語モデルで、llamafile形式による簡単な展開が可能です。

画像生成テキストオープンソースライセンス:Apache-2.0 #エッジデバイス向け視覚質問応答 #軽量マルチモーダル #リアルタイム画像説明

ダウンロード数 310

リリース時間 : 4/26/2024

モデル概要

vikhyatk/moondream2の量子化バージョンで、画像からテキスト生成タスクをサポートし、リソースが限られた環境に適しています。

モデル特徴

エッジデバイス最適化

リソースが限られたエッジデバイスで効率的に動作するように設計されています

量子化バージョン

Q5_MとQ8_0の2つの量子化オプションを提供し、Q8_0バージョンの方が優れた性能を発揮します

簡単な展開

llamafile形式によるワンクリック展開と実行が可能です

モデル能力

画像説明生成

視覚質問応答

画像内容分析

使用事例

視覚理解

画像説明生成

入力画像に対して自然言語の説明を生成します

視覚質問応答

画像内容に関する自然言語の質問に回答します

VQAv2ベンチマークで77.7点を達成

🚀 moondream2-llamafile

このプロジェクトは、moondream2 用に生成された llamafile を提供します。エッジデバイスで効率的に動作する小型のビジョン言語モデルである moondream2 を簡単に実行できます。

🚀 クイックスタート

概要

この llamafile は moondream2 用に生成されたものです。@jartine と @vikhyat のそれぞれの作業に感謝いたします。

実行方法 (macOS と Linux)

moondream2.llamafile をダウンロードします。
実行可能にするために、以下のコマンドを実行します。

chmod +x moondream2.llamafile

llama.cpp サーバーを実行します。

./moondream2.llamafile

✨ 主な機能

バージョン

Q5_M
Q8_0

短いテストでは、Q8 の方が明らかに良い結果を示しました。

📚 ドキュメント

オリジナルモデルの詳細

moondream2 は、エッジデバイスで効率的に動作する小型のビジョン言語モデルです。詳細は GitHub リポジトリをご覧ください。また、Hugging Face Space で試すこともできます。

ベンチマーク

リリース日	VQAv2	GQA	TextVQA	TallyQA (simple)	TallyQA (full)
2024-03-04	74.2	58.5	36.4	-	-
2024-03-06	75.4	59.8	43.1	79.5	73.2
2024-03-13	76.8	60.6	46.4	79.6	73.3
2024-04-02 (最新)	77.7	61.7	49.7	80.1	74.2

使用方法

まず、必要なライブラリをインストールします。

pip install transformers einops

次に、以下のコードを使用してモデルを実行します。

from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image

model_id = "vikhyatk/moondream2"
revision = "2024-04-02"
model = AutoModelForCausalLM.from_pretrained(
    model_id, trust_remote_code=True, revision=revision
)
tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)

image = Image.open('<IMAGE_PATH>')
enc_image = model.encode_image(image)
print(model.answer_question(enc_image, "Describe this image.", tokenizer))