Magistral-Small-2506-Vision开源模型 - 免费助力具备视觉能力的实验检查

首页

Magistral Small 2506 Vision

由 OptimusePrime 开发

Magistral-Small-2506-Vision 是一个基于 Mistral Small 3.1 进行 GRPO 训练的推理微调版本，具备视觉能力的实验性检查点。

图像生成文本

Safetensors

支持多种语言开源协议:Apache-2.0 #多模态推理 #多语言视觉 #零训练视觉

下载量 125

发布时间 : 6/13/2025

模型简介

该模型是对 Mistral Small 3.1 进行 GRPO 训练的推理微调版本，移植了 Mistral Small 3.1 的视觉编码器，使其具备处理图像的能力。尽管仅在文本数据上进行微调，但在多模态基准测试中仍有适度改进。

模型特点

多语言支持

支持英语、法语、德语、西班牙语、葡萄牙语、意大利语、日语、韩语、俄语、中文、阿拉伯语、波斯语、印尼语、马来语、尼泊尔语、波兰语、罗马尼亚语、塞尔维亚语、瑞典语、土耳其语、乌克兰语、越南语、印地语和孟加拉语等多种语言。

视觉能力

通过移植 Mistral Small 3.1 的视觉编码器，使模型具备处理图像的能力。

推理能力泛化

尽管仅在文本数据上进行微调，但在多模态基准测试中仍有适度改进，表明推理能力可泛化到多模态数据。

模型能力

文本生成

图像分析

多模态推理

使用案例

多模态任务

图像描述生成

根据输入的图像生成描述性文本。

多模态问答

结合图像和文本输入回答问题。

🚀 Magistral-Small-2506-Vision

本项目受 https://huggingface.co/ngxson/Devstral-Small-Vision-2505-GGUF 启发，该项目是一个 Devstral 视觉实验。本项目是 Magistral-Small-2506 带有视觉能力的实验性检查点。

Magistral Small 是对 Mistral Small 3.1 进行 GRPO 训练的推理微调版本，Mistral Small 3.1 是一个具备视觉能力的大语言模型（LLM）。

在其技术报告中，Mistral 指出 Magistral 仅在文本数据上进行了微调，但作者在 MMMU、MMMU - Pro 和 MathVista 基准测试中报告了结果，显示尽管仅进行了文本训练，但仍有适度的改进。这表明 Magistral 成功地将其推理能力泛化到了多模态数据上。

Mistral 在其官方版本中移除了 Magistral 的视觉编码器，这可能是由于纯文本输入和多模态输入之间的性能差距所致。

在这个模型中，我将 Mistral Small 3.1 的视觉编码器移植到了 Magistral Small 上，未进行进一步的训练，这意味着该模型的纯文本性能应与 Mistral 的官方版本相同。

该模型已使用 vLLM 进行测试，并且应该可以与任何支持 Mistral Small 3.1 的工具包配合使用。Mistral 3 的 Transformers 实现效果不佳。

请确保使用 SYSTEM_PROMPT.txt 文件（来自 Mistral 的文档）中提供的系统提示以及采样参数 temp=0.7, top_p=0.95。

此模型可能仍存在配置错误，这可能会降低性能。如果您遇到任何异常行为，请告知我！

✨ 主要特性

多语言支持：支持英语、法语、德语、西班牙语、葡萄牙语、意大利语、日语、韩语、俄语、中文、阿拉伯语、波斯语、印尼语、马来语、尼泊尔语、波兰语、罗马尼亚语、塞尔维亚语、瑞典语、土耳其语、乌克兰语、越南语、印地语和孟加拉语等多种语言。
视觉能力：通过移植 Mistral Small 3.1 的视觉编码器，使模型具备处理图像的能力。
推理能力泛化：尽管仅在文本数据上进行微调，但在多模态基准测试中仍有适度改进，表明推理能力可泛化到多模态数据。

📦 安装指南

文档未提及具体安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

模型基础信息

属性	详情
基础模型	mistralai/Magistral-Small-2506、mistralai/Mistral-Small-3.1-24B-Instruct-2503
任务类型	图像 - 文本到文本
库名称	vllm
支持语言	英语、法语、德语、西班牙语、葡萄牙语、意大利语、日语、韩语、俄语、中文、阿拉伯语、波斯语、印尼语、马来语、尼泊尔语、波兰语、罗马尼亚语、塞尔维亚语、瑞典语、土耳其语、乌克兰语、越南语、印地语、孟加拉语

使用提示

⚠️ 重要提示

确保使用 SYSTEM_PROMPT.txt 文件（来自 Mistral 的文档）中提供的系统提示以及采样参数 temp=0.7, top_p=0.95。

💡 使用建议

若遇到任何异常行为，请及时反馈。

🔧 技术细节

Mistral 在其技术报告中表明，Magistral 仅在文本数据上进行微调。尽管如此，作者在 MMMU、MMMU - Pro 和 MathVista 基准测试中取得了一定成果，显示出该模型在多模态数据上也具备一定推理能力。Mistral 在官方发布时移除了 Magistral 的视觉编码器，可能是考虑到纯文本输入和多模态输入之间的性能差异。本模型将 Mistral Small 3.1 的视觉编码器移植到 Magistral Small 上，且未进行额外训练，理论上其纯文本性能与 Mistral 官方版本一致。