L

Llava Mini Llama 3.1 8b

ICTNLPによって開発
LLaVA-Miniは効率的なマルチモーダル大規模モデルで、1つの視覚トークンだけで画像を表現することで、画像や動画理解の効率を大幅に向上させています。
ダウンロード数 12.45k
リリース時間 : 1/7/2025

モデル概要

LLaVA-Miniは統一されたマルチモーダル大規模モデルで、効率的な方法で画像、高解像度画像、動画の理解をサポートします。マルチモーダルモデルの内部解釈可能性研究に基づき、視覚能力を保ちつつ効率を大幅に向上させています。

モデル特徴

単一視覚トークンによる効率的表現
1トークンだけで各画像を表現可能で、処理効率が大幅に向上
効率的な計算
浮動小数点演算を77%削減、応答遅延を100ミリ秒から40ミリ秒に低減
低VRAM使用量
VRAM使用量を360MB/画像から0.6MB/画像に削減、3時間の動画処理をサポート
マルチモーダル統一処理
画像、高解像度画像、動画の理解を統一してサポート

モデル能力

画像理解
動画理解
高解像度画像処理
マルチモーダル推論
テキスト生成

使用事例

視覚コンテンツ分析
画像内容の説明
画像内容を分析して記述テキストを生成
画像中のオブジェクトやシーンを正確に識別
動画内容理解
動画内容を理解して要約を生成
動画で起こっている主要なイベントを説明可能
インタラクティブアプリケーション
視覚的質問応答システム
画像や動画内容に関するユーザーの質問に回答
正確で文脈に即した回答を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase