L

Llava V1.5 7b M3

mucaiによって開発
M3は実行時に視覚粒度を明示的に制御可能なマルチモーダルモデルで、画像/データセットの複雑度測定基準としても機能し、LLaMA/Vicunaをファインチューニングして作成されました。
ダウンロード数 33
リリース時間 : 5/28/2024

モデル概要

マトリョーシカマルチモーダルモデル(M3)はオープンソースのチャットボットで、視覚対話データを用いてLLaMA/Vicunaをファインチューニングして訓練されました。動的に視覚トークン数を調整可能で、画像複雑度の評価ツールとしても使用できます。

モデル特徴

動的視覚粒度制御
実行時に各サンプルの視覚トークン数を明示的に制御可能
複雑度測定基準
モデル自体が画像/データセットの複雑度測定ツールとして機能
効率的な視覚処理
画像ごとに1つまたは9つの視覚トークンしか使用しなくても強力な性能を維持

モデル能力

マルチモーダル対話
画像説明生成
視覚的質問応答
画像複雑度評価

使用事例

研究応用
マルチモーダルモデル研究
大規模マルチモーダルモデルの動作と性能を研究するために使用
視覚的表現学習
異なる視覚粒度下での表現学習効果を研究
教育応用
AI教育ツール
マルチモーダルモデルの動作原理を説明する教育ツールとして使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase