M

Moe LLaVA Qwen 1.8B 4e

LanguageBindによって開発
MoE-LLaVAはエキスパート混合アーキテクチャに基づく大規模視覚言語モデルで、スパース活性化パラメータにより効率的なマルチモーダル学習を実現
ダウンロード数 176
リリース時間 : 1/23/2024

モデル概要

MoE-LLaVAは視覚と言語理解能力を統合し、エキスパート混合アーキテクチャを用いて効率的なマルチモーダルインタラクションを実現、パラメータ数を削減しながら高性能を維持

モデル特徴

効率的なパラメータ利用
30億のスパース活性化パラメータのみで7B密モデルの性能を達成
高速トレーニング
V100 GPU8枚で2日間でトレーニング完了
卓越した性能
多くの視覚理解タスクで大規模モデルを上回る

モデル能力

視覚的質問応答
画像理解
マルチモーダル推論
物体認識
画像キャプション生成

使用事例

インテリジェントアシスタント
画像内容質問応答
画像内容に関する様々な質問に回答
物体幻覚ベンチマークでLLaVA-1.5-13Bを上回る
コンテンツ理解
複雑なシーン理解
複数のオブジェクトを含む複雑なシーン画像を理解
多くの視覚理解データセットでLLaVA-1.5-7Bと同等の性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase