天工-R1V2-38B開源多模態推理模型 - 免費部署實現視覺推理與文本理解

首頁

Skywork R1V2 38B

由Skywork開發

天工-R1V2-38B是當前最先進的開源多模態推理模型，在多項基準測試中表現卓越，具備強大的視覺推理與文本理解能力。

圖像生成文本

Transformers

開源協議:MIT #多模態推理 #視覺語言理解 #學術基準領先

下載量 1,778

發布時間 : 4/25/2025

模型概述

高性能開源視覺語言模型，兼具視覺推理與文本理解能力，在MMMU、OlympiadBench等多項基準測試中領先其他開源模型。

模型特點

多模態推理能力

在MMMU測試中獲得73.6%的分數，是目前所有開源模型中的最高成績

視覺理解卓越

在OlympiadBench上達到62.6%，大幅領先其他開源模型

媲美商業模型

在MathVision、MMMU-Pro和MathVista等測試中表現強勁，性能接近商業閉源模型

開源可訪問

完全開源，提供Hugging Face和ModelScope模型庫訪問

模型能力

多模態推理

視覺問答

圖像理解

複雜問題解答

跨模態信息處理

使用案例

教育

數學問題解答

解析包含數學公式和圖表的問題並提供解答

在MathVista測試中達到74.0%準確率

科學問題解答

理解科學圖表並回答相關問題

在OlympiadBench測試中達到62.6%準確率

研究

多模態研究

用於視覺語言模型的前沿研究

🚀 Skywork-R1V2

Skywork-R1V2-38B 是一款先進的開源多模態推理模型，在多個基準測試中表現卓越，融合了強大的視覺推理和文本理解能力，為多模態領域帶來了新的解決方案。

🚀 快速開始

1. 克隆倉庫

git clone https://github.com/SkyworkAI/Skywork-R1V.git
cd skywork-r1v/inference

2. 環境搭建

# For Transformers  
conda create -n r1-v python=3.10 && conda activate r1-v  
bash setup.sh  
# For vLLM  
conda create -n r1v-vllm python=3.10 && conda activate r1v-vllm  
pip install -U vllm

3. 運行推理腳本

Transformers 推理

CUDA_VISIBLE_DEVICES="0,1" python inference_with_transformers.py \
    --model_path path \
    --image_paths image1_path \
    --question "your question"

vLLM 推理

python inference_with_vllm.py \
    --model_path path \
    --image_paths image1_path image2_path \
    --question "your question" \
    --tensor_parallel_size 4

✨ 主要特性

Skywork-R1V2-38B 作為一款先進的開源多模態推理模型，在多個基準測試中展現出了卓越的性能：

在 MMMU 測試中，得分達到 73.6%，是目前所有開源模型中的最高分。
在 OlympiadBench 測試中，取得了 62.6% 的成績，大幅領先於其他開源模型。
在 MathVision、MMMU-Pro 和 MathVista 等測試中也表現出色，可與專有商業模型相媲美。
總體而言，R1V2 是一款高性能的開源視覺語言模型（VLM），具備強大的視覺推理和文本理解能力。

🔧 模型詳情

屬性	詳情
模型名稱	Skywork-R1V2-38B
視覺編碼器	InternViT-6B-448px-V2_5
語言模型	Qwen/QwQ-32B
Hugging Face 鏈接	🤗 Link

📚 詳細文檔

評估

與大規模開源模型對比

與大規模開源模型對比圖注：與大規模開源模型的比較

與專有模型對比

與專有模型對比圖注：與專有模型的比較

先進大語言模型和視覺語言模型的評估結果

模型	是否支持視覺	文本推理（%）						多模態推理（%）
		AIME24	LiveCodebench	liveBench	IFEVAL	BFCL	GPQA	MMMU(val)	MathVista(mini)	MathVision(mini)	OlympiadBench	mmmu‑pro
R1V2‑38B	✅	78.9	63.6	73.2	82.9	66.3	61.6	73.6	74.0	49.0	62.6	52.0
R1V1‑38B	✅	72.0	57.2	54.6	72.5	53.5	–	68.0	67.0	–	40.4	–
Deepseek‑R1‑671B	❌	74.3	65.9	71.6	83.3	60.3	71.5	–	–	–	–	–
GPT‑o1	❌	79.8	63.4	72.2	–	–	–	–	–	–	–	–
GPT‑o4‑mini	✅	93.4	74.6	78.1	–	–	49.9	81.6	84.3	58.0	–	–
Claude 3.5 Sonnet	✅	–	–	–	–	–	65.0	66.4	65.3	–	–	–
Kimi k1.5 long-cot	✅	–	–	–	–	–	–	70.0	74.9	–	–	–
Qwen2.5‑VL‑72B‑Instruct	✅	–	–	–	–	–	–	70.2	74.8	–	–	–
InternVL2.5‑78B	✅	–	–	–	–	–	–	70.1	72.3	–	33.2	–

📄 許可證

本項目採用 MIT 許可證開源。

📖 引用

如果您在研究中使用了 Skywork-R1V，請引用以下文獻：

@misc{chris2025skyworkr1v2multimodalhybrid,
      title={Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning}, 
      author={Chris and Yichen Wei and Yi Peng and Xiaokun Wang and Weijie Qiu and Wei Shen and Tianyidan Xie and Jiangbo Pei and Jianhao Zhang and Yunzhuo Hao and Xuchen Song and Yang Liu and Yahui Zhou},
      year={2025},
      eprint={2504.16656},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2504.16656}, 
}

@misc{peng2025skyworkr1vpioneeringmultimodal,
      title={Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought}, 
      author={Yi Peng and Chris and Xiaokun Wang and Yichen Wei and Jiangbo Pei and Weijie Qiu and Ai Jian and Yunzhuo Hao and Jiachun Pan and Tianyidan Xie and Li Ge and Rongxian Zhuang and Xuchen Song and Yang Liu and Yahui Zhou},
      year={2025},
      eprint={2504.05599},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2504.05599}, 
}