G

Gemma 2B Rewardmodel Baseline

由Ray2333開發
基於Gemma-2b-it模型、採用BT損失函數訓練的打分模型,適用於為大型語言模型尋找優質的小型打分模型
下載量 133
發布時間 : 7/5/2024

模型概述

該模型是一個基於Gemma-2b-it架構的打分模型,採用BT損失函數訓練,訓練數據集為preference_700K。主要用於評估和選擇大型語言模型的輸出質量。

模型特點

高效打分模型
小型但高效的打分模型,適合評估大型語言模型的輸出質量
BT損失函數訓練
採用Bradley-Terry(BT)損失函數進行優化訓練
多維度評估能力
能夠評估對話能力、安全性、推理能力等多個維度

模型能力

文本質量評估
對話能力評分
安全性評估
推理能力評分

使用案例

語言模型評估
LLM輸出質量評估
評估大型語言模型生成文本的質量
在reward model benchmark上獲得73.7的綜合評分
對話系統優化
用於優化對話系統的響應質量
對話能力評分為94.1
內容安全
內容安全過濾
評估生成內容的安全性
安全性評分為79.6
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase