M

Minimax VL 01

Developed by MiniMaxAI
MiniMax-VL-01是一個強大的多模態大語言模型,採用'ViT-MLP-LLM'框架,具有動態分辨率處理能力,在多項視覺語言任務中表現優異。
Downloads 237
Release Time : 1/12/2025

Model Overview

該模型結合了視覺變換器(ViT)、MLP投影器和基礎大語言模型,能夠處理從336×336到2016×2016的動態分辨率圖像輸入,在多模態任務中展現出頂級性能。

Model Features

動態分辨率處理
支持從336×336到2016×2016的動態分辨率輸入,保留縮略圖並分割編碼
大規模訓練
視覺變換器在6.94億圖像-標題對上訓練,共處理5120億token
多模態能力
結合視覺和語言理解,在複雜多模態任務中表現優異

Model Capabilities

圖像理解
視覺問答
文檔分析
圖表理解
數學推理
科學問題解答

Use Cases

教育
科學問題解答
解答包含圖表和公式的科學問題
在MMMU和MMMU-Pro基準測試中表現優異
文檔處理
文檔問答
從文檔中提取信息並回答問題
在DocVQA基準測試中達到96.4%準確率
數據分析
圖表理解
分析和解釋圖表數據
在ChartQA基準測試中達到91.7%準確率
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase