L

Llava Gemma 7b

Intelによって開発
LLaVA-Gemma-7bはLLaVA-v1.5フレームワークでトレーニングされた大規模マルチモーダルモデルで、google/gemma-7b-itを言語バックボーンとして使用し、CLIP視覚エンコーダーと組み合わせており、マルチモーダル理解と生成タスクに適しています。
ダウンロード数 161
リリース時間 : 3/26/2024

モデル概要

このモデルは大規模マルチモーダルモデル(LMM)であり、画像とテキスト入力を処理し、テキスト出力を生成することができ、マルチモーダルチャットボットやマルチモーダルベンチマーク評価に適しています。

モデル特徴

マルチモーダル理解
画像とテキスト入力を同時に処理し、両者の関係を理解できる
効率的なトレーニング
8つのインテルGaudi 2 AIアクセラレータでわずか4時間のトレーニング
コンパクトモデル
70億パラメータのGemmaモデルベースで、性能を維持しながら計算リソース要件を削減

モデル能力

画像理解
テキスト生成
マルチモーダル対話
視覚的質問応答

使用事例

マルチモーダルチャットボット
画像説明生成
入力画像に基づいて記述テキストを生成
VQAv2ベンチマークで68.7の精度を達成
マルチモーダル対話
画像とテキストを組み合わせた自然な対話
MM-Vetベンチマークで18.2点を達成
学術研究
マルチモーダルモデル研究
小規模モデルにおける計算効率とマルチモーダル理解のトレードオフを探るために使用
Gemma-2BとGemma-7Bの2つのバリアントを比較分析用に提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase