S

Skywork Reward Gemma 2 27B V0.2

由Skywork開發
基於Gemma-2-27B架構構建的高性能獎勵模型,使用淨化後的Skywork-Reward-Preference-80K-v0.2數據集訓練,擅長處理複雜場景中的偏好判斷。
下載量 9,496
發布時間 : 10/14/2024

模型概述

這是一個先進的獎勵模型,專門用於評估和判斷文本響應質量,在數學、編碼和安全等多個領域表現優異。

模型特點

高質量數據集
使用淨化後的Skywork-Reward-Preference-80K-v0.2數據集訓練,移除了受汙染的樣本對
多領域能力
擅長處理數學、編碼和安全等多個領域的偏好判斷
高性能
在RewardBench排行榜上排名第一,總分94.3
優化訓練策略
採用特殊的數據選擇和評分策略優化模型性能

模型能力

文本偏好評分
多領域判斷
複雜場景評估

使用案例

AI訓練
強化學習獎勵模型
作為強化學習中的獎勵信號提供者
提高AI模型訓練效率
內容評估
響應質量評分
評估AI生成響應的質量
準確區分高質量和低質量響應
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase