M

Moe LLaVA StableLM 1.6B 4e

LanguageBindによって開発
MoE-LLaVAはエキスパート混合アーキテクチャに基づく大規模視覚言語モデルで、スパース活性化パラメータにより効率的なマルチモーダル学習を実現します。
ダウンロード数 125
リリース時間 : 1/23/2024

モデル概要

このモデルはエキスパート混合アーキテクチャを採用し、視覚言語理解タスクに特化しており、多くのベンチマークテストでより大規模なモデルの性能に匹敵または凌駕します。

モデル特徴

効率的なパラメータ利用
30億のスパース活性化パラメータのみで7B規模モデルの性能を達成
卓越した性能
多くの視覚理解タスクでLLaVA-1.5-7Bレベルを達成し、一部タスクでは13Bモデルを超越
効率的なトレーニング
8台のV100 GPUで2日以内にトレーニング可能

モデル能力

視覚言語理解
マルチモーダル学習
画像分析
テキスト生成

使用事例

視覚理解
画像キャプション生成
入力画像に対して正確な文章説明を生成
物体幻覚ベンチマークで優れた性能
視覚的質問応答
画像内容に関する複雑な質問に回答
より大規模なモデルの性能に匹敵または超越
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase