L

Llava Gemma 2b

Intelによって開発
LLaVA-Gemma-2bはLLaVA-v1.5フレームワークでトレーニングされた大規模マルチモーダルモデルで、20億パラメータのGemma-2b-itを言語バックボーンとして使用し、CLIP視覚エンコーダーを組み合わせています。
ダウンロード数 1,503
リリース時間 : 3/14/2024

モデル概要

このモデルはマルチモーダルベンチマーク評価向けに微調整されており、マルチモーダルチャットボットとして使用可能で、画像とテキストのインタラクションをサポートします。

モデル特徴

コンパクトで効率的
20億パラメータのGemma-2b-itを言語バックボーンとして採用し、性能を維持しながら計算リソース要件を低減。
マルチモーダル理解
CLIP視覚エンコーダーを組み合わせ、画像とテキスト入力を同時に処理し、クロスモーダル理解を実現。
迅速なトレーニング
8つのインテルGaudi 2 AIアクセラレータでわずか4時間でトレーニングを完了。

モデル能力

画像キャプション生成
視覚的質問応答
マルチモーダル対話
テキスト要約

使用事例

マルチモーダルチャットボット
画像内容の質問応答
ユーザーが画像をアップロードし関連内容を質問すると、モデルが正確な説明と回答を生成。
VQAv2ベンチマークテストで70.7の精度を達成
学術研究
マルチモーダルモデル研究
研究者にコンパクトモデル研究プラットフォームを提供し、計算効率とマルチモーダル理解のバランスを探求。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase