V

Visualprm 8B V1 1

由OpenGVLab開發
VisualPRM-8B-v1.1 是一個具有80億參數的先進多模態過程獎勵模型,通過Best-of-N評估策略提升多模態大語言模型的推理能力。
下載量 249
發布時間 : 4/13/2025

模型概述

該模型旨在提升現有多模態大語言模型(MLLMs)的推理能力,通過過程獎勵機制優化模型輸出。

模型特點

多模態過程獎勵
通過過程獎勵機制評估和優化多模態推理步驟
Best-of-N評估策略
採用BoN策略從多個候選響應中選擇最優解
大規模訓練數據
基於VisualPRM400K數據集訓練,包含40萬樣本
廣泛適用性
可提升不同規模和架構的多模態大語言模型性能

模型能力

多模態推理評估
過程獎勵評分
最佳響應選擇
幾何問題解答
視覺-語言聯合理解

使用案例

教育
幾何問題解答評估
評估和優化模型對幾何問題的分步解答
在InternVL2.5-78B上實現5.9分的性能提升
研究
多模態模型優化
作為獎勵模型優化其他多模態大語言模型
提升三種類型MLLMs和四種不同規模的推理性能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase