Moondream2オープンソースビジュアル言語モデル - 軽量設計で全プラットフォームでの高効率な実行をサポート

ホーム

Moondream2

vikhyatkによって開発

Moondreamは軽量ビジュアル言語モデルで、効率的な全プラットフォーム実行のために設計されています。

画像生成テキストオープンソースライセンス:Apache-2.0 #軽量ビジュアル言語 #チャート理解最適化 #ストリーミング生成

ダウンロード数 184.93k

リリース時間 : 3/4/2024

モデル概要

Moondreamは効率的なビジュアル言語モデルで、画像テキスト生成テキストのタスクを処理でき、画像キャプション生成、ビジュアルQ&A、物体検出、ポインティング認識などの機能をサポートします。

モデル特徴

軽量設計

効率的な全プラットフォーム実行のために設計されており、様々なハードウェア環境で使用できます。

マルチタスクサポート

画像キャプション生成、ビジュアルQ&A、物体検出、ポインティング認識など、様々なタスクをサポートします。

頻繁な更新

モデルは頻繁に更新され、バージョン番号を提供して本番環境の安定性を確保します。

モデル能力

画像キャプション生成

ビジュアルQ&A

物体検出

ポインティング認識

チャート理解

ドキュメント表OCR

インターフェース理解

テキスト理解

使用事例

画像分析

画像キャプション生成

画像の短いまたは標準的な説明を生成します。

ビジュアルQ&A

画像内容に関する自然言語の質問に答えます。

物体検出

顔検出

画像内の顔の数を検出します。

人物位置特定

画像内の人物の位置を特定します。

ドキュメント処理

ドキュメント表OCR

ドキュメント表のOCR認識を最適化します。

ドキュメントレイアウト認識

ドキュメント内のチャート、数式、テキストなどのレイアウトを認識します。

🚀 Moondream

Moondreamは、どこでも効率的に動作するように設計された小型のビジョン言語モデルです。このモデルは、画像とテキストを入力として受け取り、テキストを出力することができます。

ウェブサイト / デモ / GitHub

このリポジトリには、Moondreamの最新リリース（2025-04-14）と過去のリリースが含まれています。モデルは頻繁に更新されるため、本番アプリケーションで使用する場合は、以下に示すようにリビジョンを指定することをお勧めします。

🚀 クイックスタート

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image

model = AutoModelForCausalLM.from_pretrained(
    "vikhyatk/moondream2",
    revision="2025-04-14",
    trust_remote_code=True,
    # Uncomment to run on GPU.
    # device_map={"": "cuda"}
)

# Captioning
print("Short caption:")
print(model.caption(image, length="short")["caption"])

print("\nNormal caption:")
for t in model.caption(image, length="normal", stream=True)["caption"]:
    # Streaming generation example, supported for caption() and detect()
    print(t, end="", flush=True)
print(model.caption(image, length="normal"))

# Visual Querying
print("\nVisual query: 'How many people are in the image?'")
print(model.query(image, "How many people are in the image?")["answer"])

# Object Detection
print("\nObject detection: 'face'")
objects = model.detect(image, "face")["objects"]
print(f"Found {len(objects)} face(s)")

# Pointing
print("\nPointing: 'person'")
points = model.point(image, "person")["points"]
print(f"Found {len(points)} person(s)")

📚 ドキュメント

変更履歴

2025-04-15 (完全なリリースノート)

チャート理解能力の向上（ChartQAが74.8から77.5に、PoTを使うと82.2に向上）
繰り返し出力を減らすために、温度設定とニュークリアスサンプリングを追加
ドキュメントとテーブルのOCR精度の向上（「Transcribe the text」または「Transcribe the text in natural reading order」というプロンプトを使用）
オブジェクト検出がドキュメントレイアウト検出（図、数式、テキストなど）をサポート
UI理解能力の向上（ScreenSpot F1@0.5が53.3から60.3に向上）
テキスト理解能力の向上（DocVQAが76.5から79.3に、TextVQAが74.6から76.3に向上）

2025-03-27 (完全なリリースノート)