S

Skywork Reward Llama 3.1 8B V0.2

由Skywork開發
基於Llama-3.1-8B-Instruct架構構建的先進獎勵模型,使用80K高質量偏好對訓練,擅長處理複雜場景中的偏好問題。
下載量 25.99k
發布時間 : 10/14/2024

模型概述

該模型是一個文本分類模型,專門用於評估和獎勵對話響應質量,適用於數學、編程和安全等多個領域。

模型特點

高質量數據訓練
使用精心篩選的80K高質量偏好對進行訓練,確保模型性能優異。
多領域覆蓋
涵蓋數學、編程和安全等多個領域,能夠處理複雜場景中的偏好問題。
淨化數據集
使用淨化後的數據集v0.2版本,避免了與RewardBench評估提示的汙染問題。

模型能力

文本分類
對話響應質量評估
多領域偏好判斷

使用案例

對話系統
對話響應評分
評估對話系統中生成的響應質量,選擇最優響應。
在RewardBench排行榜上的8B模型中排名第一。
教育
數學問題解答評估
評估學生對數學問題的解答質量,提供反饋。
能夠準確區分正確和錯誤的數學解答。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase