I

Internlm Xcomposer2d5 7b Reward

Developed by internlm
InternLM-XComposer2.5-Reward 是基於 InternLM-XComposer2.5 訓練的多模態獎勵模型,能夠給出符合人類偏好的獎勵分數。
Downloads 767
Release Time : 1/21/2025

Model Overview

該模型通過文本、圖像和視頻領域的偏好樣本進行訓練,能夠評估對話、圖像分析等任務的輸出質量。

Model Features

多模態評估
能夠同時處理文本和圖像輸入,進行綜合評估
人類偏好對齊
通過偏好樣本訓練,評分結果符合人類偏好
高性能
在多個基準測試中表現優異,如 VLRewardBench 和 RewardBench

Model Capabilities

對話質量評估
圖像分析評估
多模態內容評分
偏好排序

Use Cases

內容評估
對話質量評分
評估AI助手生成的對話回覆質量
可給出0-10分的評分
多模態內容排序
對多個包含圖像和文本的回覆進行質量排序
返回質量從高到低的排序結果
模型訓練
強化學習獎勵模型
作為強化學習中的獎勵信號提供者
幫助訓練更符合人類偏好的AI模型
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase