S

Skywork Reward Gemma 2 27B

由Skywork開發
Skywork-Reward-Gemma-2-27B是基於gemma-2-27b-it架構構建的先進獎勵模型,擅長處理複雜場景下的偏好問題。
下載量 107
發布時間 : 9/5/2024

模型概述

該模型是一款高性能獎勵模型,專注於處理數學、編程和安全等領域的複雜偏好問題,使用僅8萬對高質量偏好數據訓練而成。

模型特點

高性能獎勵模型
在RewardBench排行榜上位列第一,擅長處理複雜場景下的偏好問題
高質量數據訓練
僅使用8萬對精心篩選的高質量偏好數據進行訓練
多領域能力
擅長處理數學、編程和安全等多個領域的偏好問題

模型能力

偏好評分
複雜場景處理
數學問題評估
編程問題評估
安全內容評估

使用案例

模型對齊
強化學習中的獎勵模型
作為強化學習中的獎勵信號提供者,幫助訓練更符合人類偏好的AI模型
在RewardBench上達到93.8總分
內容評估
響應質量評估
評估AI生成響應的質量,區分優劣回答
在聊天、困難聊天、安全性和推理能力等多個維度表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase