Llava V1.5 7b M3
M3は実行時に視覚粒度を明示的に制御可能なマルチモーダルモデルで、画像/データセットの複雑度測定基準としても機能し、LLaMA/Vicunaをファインチューニングして作成されました。
ダウンロード数 33
リリース時間 : 5/28/2024
モデル概要
マトリョーシカマルチモーダルモデル(M3)はオープンソースのチャットボットで、視覚対話データを用いてLLaMA/Vicunaをファインチューニングして訓練されました。動的に視覚トークン数を調整可能で、画像複雑度の評価ツールとしても使用できます。
モデル特徴
動的視覚粒度制御
実行時に各サンプルの視覚トークン数を明示的に制御可能
複雑度測定基準
モデル自体が画像/データセットの複雑度測定ツールとして機能
効率的な視覚処理
画像ごとに1つまたは9つの視覚トークンしか使用しなくても強力な性能を維持
モデル能力
マルチモーダル対話
画像説明生成
視覚的質問応答
画像複雑度評価
使用事例
研究応用
マルチモーダルモデル研究
大規模マルチモーダルモデルの動作と性能を研究するために使用
視覚的表現学習
異なる視覚粒度下での表現学習効果を研究
教育応用
AI教育ツール
マルチモーダルモデルの動作原理を説明する教育ツールとして使用
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98