Magistral-Small-2506-Visionオープンソースモデル - 視覚能力を備えた実験検査を無料で支援

ホーム

Magistral Small 2506 Vision

OptimusePrimeによって開発

Magistral - Small - 2506 - Visionは、Mistral Small 3.1をベースにGRPOトレーニングを行った推論微調整バージョンで、ビジュアル能力を備えた実験的チェックポイントです。

画像生成テキスト

Safetensors

複数言語対応オープンソースライセンス:Apache-2.0 #マルチモーダル推論 #多言語ビジュアル #ゼロトレーニングビジュアル

ダウンロード数 125

リリース時間 : 6/13/2025

モデル概要

このモデルは、Mistral Small 3.1をベースにGRPOトレーニングを行った推論微調整バージョンで、Mistral Small 3.1のビジュアルエンコーダを移植することで、画像を処理する能力を備えています。テキストデータのみで微調整されていますが、マルチモーダルベンチマークテストでは適度な改善が見られます。

モデル特徴

多言語サポート

英語、フランス語、ドイツ語、スペイン語、ポルトガル語、イタリア語、日本語、韓国語、ロシア語、中国語、アラビア語、ペルシャ語、インドネシア語、マレー語、ネパール語、ポーランド語、ルーマニア語、セルビア語、スウェーデン語、トルコ語、ウクライナ語、ベトナム語、ヒンディー語、ベンガル語など、多くの言語をサポートします。

ビジュアル能力

Mistral Small 3.1のビジュアルエンコーダを移植することで、モデルに画像を処理する能力を持たせます。

推論能力の汎化

テキストデータのみで微調整されていますが、マルチモーダルベンチマークテストでは適度な改善が見られ、推論能力がマルチモーダルデータに汎化できることを示しています。

モデル能力

テキスト生成

画像分析

マルチモーダル推論

使用事例

マルチモーダルタスク

画像記述生成

入力された画像に基づいて記述的なテキストを生成します。

マルチモーダル質問応答

画像とテキストの入力を組み合わせて質問に答えます。

🚀 Magistral-Small-2506-Vision

このモデルは、Devstralのビジョン実験であるhttps://huggingface.co/ngxson/Devstral-Small-Vision-2505-GGUFにインスパイアされ、Magistral-Small-2506のビジョン機能を持つ実験的なチェックポイントです。

Magistral Smallは、ビジョン機能を備えた大規模言語モデルであるMistral Small 3.1をGRPOで学習させた推論用のファインチューニングモデルです。

Mistralの技術レポートでは、Magistralはテキストのみのデータでファインチューニングされたとされていますが、著者らはMMMU、MMMU-Pro、MathVistaのベンチマークでの結果を報告しており、テキストのみの学習であっても若干の改善が見られます。これは、Magistralが推論能力をマルチモーダルデータにうまく一般化できたことを示唆しています。

Mistralは公式リリースでMagistralのビジョンエンコーダを削除しました。これは、テキストのみの入力とマルチモーダル入力の間の性能差が原因かもしれません。

このモデルでは、Magistral SmallにMistral Small 3.1のビジョンエンコーダを移植しています。さらなる学習は行っていないため、このモデルのテキストのみの性能はMistralの公式リリースと同じであるはずです。

このモデルはvLLMでテストされており、Mistral Small 3.1をサポートするあらゆるツールキットで動作するはずです。Mistral 3のTransformers実装はうまく動作しません。

必ずSYSTEM_PROMPT.txtファイル（Mistralのドキュメントから）に記載されているシステムプロンプトとサンプリングパラメータtemp=0.7, top_p=0.95を使用してください。

このモデルにはまだ設定エラーがあり、性能が低下する可能性があります。何か奇妙な動作に遭遇した場合は、ぜひ教えてください！

📦 インストール

ドキュメントに具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

ドキュメントに具体的なコード例が記載されていないため、このセクションは省略されます。

🔧 技術詳細

このモデルは、GRPOで学習されたMistral Small 3.1の推論用ファインチューニングモデルであるMagistral Smallに、Mistral Small 3.1のビジョンエンコーダを移植したものです。さらなる学習は行っていないため、テキストのみの性能はMistralの公式リリースと同じであるはずです。

Mistralは公式リリースでMagistralのビジョンエンコーダを削除しましたが、このモデルではそれを復元しています。これにより、マルチモーダル入力に対応した推論が可能になります。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

📚 詳細ドキュメント

モデル情報

属性	詳情
ベースモデル	mistralai/Magistral-Small-2506、mistralai/Mistral-Small-3.1-24B-Instruct-2503
パイプラインタグ	image-text-to-text
ライブラリ名	vLLM
サポート言語	en、fr、de、es、pt、it、ja、ko、ru、zh、ar、fa、id、ms、ne、pl、ro、sr、sv、tr、uk、vi、hi、bn