Moondream-2b-2025-04-14-4bitオープンソースビジュアル言語モデル - 低メモリ占有で全プラットフォームで効率的に動作

ホーム

Moondream 2b 2025 04 14 4bit

moondreamによって開発

Moondreamは軽量級のビジュアル言語モデルで、効率的な全プラットフォーム実行のために設計されています。2025年4月14日にリリースされた4ビット量子化版は、高い精度を維持しながらメモリ使用量を大幅に削減しました。

画像生成テキスト

Safetensors

オープンソースライセンス:Apache-2.0 #軽量級ビジュアルQA #4ビット量子化 #リアルタイム画像説明

ダウンロード数 6,037

リリース時間 : 5/20/2025

モデル概要

Moondreamは効率的なビジュアル言語モデルで、画像テキスト生成、ビジュアルQA、物体検出、位置マーキングなどのタスクを処理できます。4ビット量子化バージョンは量子化認識トレーニング技術によりメモリ使用量を大幅に削減しました。

モデル特徴

効率的な量子化

4ビット量子化技術を採用し、メモリ使用量を42%削減、精度低下はわずか0.6%

全プラットフォーム互換

様々なハードウェアプラットフォームで効率的に動作するように設計

マルチタスクサポート

画像説明生成、ビジュアルQA、物体検出、位置マーキングなど多様なタスクをサポート

高速推論

Nvidia RTX 3090で184トークン/秒の生成速度を達成

モデル能力

画像説明生成

ビジュアルQA

物体検出

位置マーキング

ストリーミング生成

使用事例

画像理解

自動画像タグ付け

画像に対して短いまたは標準的な長さの説明テキストを生成

異なる長さの画像説明を生成可能

ビジュアルQAシステム

画像内容に関する自然言語質問に回答

'画像には何人がいますか？'などの質問に正確に回答

コンピュータビジョン

物体検出

画像中の特定オブジェクトを検出

顔などの特定オブジェクトを検出可能

位置マーキング

画像中の特定オブジェクトの位置をマーク

人物などのオブジェクトの位置をマーク可能

🚀 ムーンドリーム

ムーンドリームは、どこでも効率的に動作するように設計された小型のビジョン言語モデルです。画像とテキストを入力としてテキストを出力することができ、様々なビジョン関連のタスクに対応しています。

公式サイト / デモ / GitHub

🚀 クイックスタート

このリポジトリには、2025年4月14日にリリースされた4-bit版のムーンドリームが含まれています。Nvidia RTX 3090では、2,450 MBのVRAMを使用し、184トークン/秒の速度で実行されます。このバージョンのモデルは量子化認識トレーニング技術を用いて構築されており、メモリ使用量を42％削減しつつ、精度の低下はわずか0.6％に抑えることができました。

このバージョンのモデルに関する詳細な情報は、リリースブログ記事を参照してください。その他のリビジョンやリリース履歴は、こちらで確認できます。

📦 インストール

必要なパッケージをインストールしてください。

pip install pillow torchao

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image

model = AutoModelForCausalLM.from_pretrained(
    "moondream/moondream-2b-2025-04-14-4bit",
    trust_remote_code=True,
    device_map={"": "cuda"}
)

# Optional, but recommended when running inference on a large number of
# images since it has upfront compilation cost but significantly speeds
# up inference:
model.model.compile()

# Captioning
print("Short caption:")
print(model.caption(image, length="short")["caption"])

print("\nNormal caption:")
for t in model.caption(image, length="normal", stream=True)["caption"]:
    # Streaming generation example, supported for caption() and detect()
    print(t, end="", flush=True)
print(model.caption(image, length="normal"))

# Visual Querying
print("\nVisual query: 'How many people are in the image?'")
print(model.query(image, "How many people are in the image?")["answer"])

# Object Detection
print("\nObject detection: 'face'")
objects = model.detect(image, "face")["objects"]
print(f"Found {len(objects)} face(s)")

# Pointing
print("\nPointing: 'person'")
points = model.point(image, "person")["points"]
print(f"Found {len(points)} person(s)")