R

Rhea 72b V0.5

Developed by davidkim205
Rhea-72b-v0.5是基於Smaug-72B-v0.1微調的大語言模型,在HuggingFace開放大模型排行榜上排名第一。
Downloads 103
Release Time : 3/22/2024

Model Overview

Rhea項目研究各種學習方法以提高大語言模型性能,使用nox框架進行微調,結合監督微調(SFT)和DPO學習方法。

Model Features

SGD方法
創新的自生成數據集創建方法,用於DPO學習,通過比較模型生成與正確答案來提升性能。
高性能
在HuggingFace開放大模型排行榜上綜合得分81.22,排名第一。
多樣化訓練數據
使用包含多種來源的監督微調數據集(datasets_enconv_4m)和DPO數據集(datasets_encomp_151k)。

Model Capabilities

文本生成
推理能力
問答系統
數學計算
語言理解

Use Cases

學術研究
AI2推理挑戰賽
解決複雜的科學推理問題
標準化準確率79.78
MMLU測試
多學科知識理解和應用
準確率77.95
商業應用
數學問題解決
解決GSM8k數學問題
準確率76.12
語言理解
HellaSwag常識推理
標準化準確率91.15
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase