M

Minimax VL 01

MiniMaxAIによって開発
MiniMax-VL-01は強力なマルチモーダル大規模言語モデルで、'ViT-MLP-LLM'フレームワークを採用し、動的解像度処理能力を持ち、多くの視覚言語タスクで優れた性能を発揮します。
ダウンロード数 237
リリース時間 : 1/12/2025

モデル概要

このモデルは視覚トランスフォーマー(ViT)、MLPプロジェクター、および基盤となる大規模言語モデルを組み合わせており、336×336から2016×2016までの動的解像度画像入力を処理でき、マルチモーダルタスクでトップクラスの性能を示します。

モデル特徴

動的解像度処理
336×336から2016×2016までの動的解像度入力をサポートし、サムネイルを保持しながら分割エンコードを行います
大規模トレーニング
視覚トランスフォーマーは6.94億の画像-キャプションペアでトレーニングされ、合計5120億トークンを処理しました
マルチモーダル能力
視覚と言語理解を組み合わせ、複雑なマルチモーダルタスクで優れた性能を発揮します

モデル能力

画像理解
視覚的質問応答
文書分析
図表理解
数学的推論
科学的問題解答

使用事例

教育
科学的問題解答
図表や数式を含む科学的問題に解答する
MMMUおよびMMMU-Proベンチマークで優れた成績を収めています
文書処理
文書質問応答
文書から情報を抽出し質問に答える
DocVQAベンチマークで96.4%の精度を達成
データ分析
図表理解
図表データを分析し解釈する
ChartQAベンチマークで91.7%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase