V

Visualprm 8B V1 1

Developed by OpenGVLab
VisualPRM-8B-v1.1 是一個具有80億參數的先進多模態過程獎勵模型,通過Best-of-N評估策略提升多模態大語言模型的推理能力。
Downloads 249
Release Time : 4/13/2025

Model Overview

該模型旨在提升現有多模態大語言模型(MLLMs)的推理能力,通過過程獎勵機制優化模型輸出。

Model Features

多模態過程獎勵
通過過程獎勵機制評估和優化多模態推理步驟
Best-of-N評估策略
採用BoN策略從多個候選響應中選擇最優解
大規模訓練數據
基於VisualPRM400K數據集訓練,包含40萬樣本
廣泛適用性
可提升不同規模和架構的多模態大語言模型性能

Model Capabilities

多模態推理評估
過程獎勵評分
最佳響應選擇
幾何問題解答
視覺-語言聯合理解

Use Cases

教育
幾何問題解答評估
評估和優化模型對幾何問題的分步解答
在InternVL2.5-78B上實現5.9分的性能提升
研究
多模態模型優化
作為獎勵模型優化其他多模態大語言模型
提升三種類型MLLMs和四種不同規模的推理性能
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase