M

Moondream2

vikhyatkによって開発
Moondreamは軽量ビジュアル言語モデルで、効率的な全プラットフォーム実行のために設計されています。
ダウンロード数 184.93k
リリース時間 : 3/4/2024

モデル概要

Moondreamは効率的なビジュアル言語モデルで、画像テキスト生成テキストのタスクを処理でき、画像キャプション生成、ビジュアルQ&A、物体検出、ポインティング認識などの機能をサポートします。

モデル特徴

軽量設計
効率的な全プラットフォーム実行のために設計されており、様々なハードウェア環境で使用できます。
マルチタスクサポート
画像キャプション生成、ビジュアルQ&A、物体検出、ポインティング認識など、様々なタスクをサポートします。
頻繁な更新
モデルは頻繁に更新され、バージョン番号を提供して本番環境の安定性を確保します。

モデル能力

画像キャプション生成
ビジュアルQ&A
物体検出
ポインティング認識
チャート理解
ドキュメント表OCR
インターフェース理解
テキスト理解

使用事例

画像分析
画像キャプション生成
画像の短いまたは標準的な説明を生成します。
ビジュアルQ&A
画像内容に関する自然言語の質問に答えます。
物体検出
顔検出
画像内の顔の数を検出します。
人物位置特定
画像内の人物の位置を特定します。
ドキュメント処理
ドキュメント表OCR
ドキュメント表のOCR認識を最適化します。
ドキュメントレイアウト認識
ドキュメント内のチャート、数式、テキストなどのレイアウトを認識します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase