R

Rhea 72b V0.5

由davidkim205開發
Rhea-72b-v0.5是基於Smaug-72B-v0.1微調的大語言模型,在HuggingFace開放大模型排行榜上排名第一。
下載量 103
發布時間 : 3/22/2024

模型概述

Rhea項目研究各種學習方法以提高大語言模型性能,使用nox框架進行微調,結合監督微調(SFT)和DPO學習方法。

模型特點

SGD方法
創新的自生成數據集創建方法,用於DPO學習,通過比較模型生成與正確答案來提升性能。
高性能
在HuggingFace開放大模型排行榜上綜合得分81.22,排名第一。
多樣化訓練數據
使用包含多種來源的監督微調數據集(datasets_enconv_4m)和DPO數據集(datasets_encomp_151k)。

模型能力

文本生成
推理能力
問答系統
數學計算
語言理解

使用案例

學術研究
AI2推理挑戰賽
解決複雜的科學推理問題
標準化準確率79.78
MMLU測試
多學科知識理解和應用
準確率77.95
商業應用
數學問題解決
解決GSM8k數學問題
準確率76.12
語言理解
HellaSwag常識推理
標準化準確率91.15
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase