Rhea-72b-v0.5開源大語言模型 - 在排行榜居首，免費獲取高效問答體驗

Home

Rhea 72b V0.5

Developed by davidkim205

Rhea-72b-v0.5是基於Smaug-72B-v0.1微調的大語言模型，在HuggingFace開放大模型排行榜上排名第一。

大型語言模型

Transformers

EnglishOpen Source License:Apache-2.0 #72B大模型 #DPO優化 #多任務推理

Downloads 103

Release Time : 3/22/2024

Model Overview

Rhea項目研究各種學習方法以提高大語言模型性能，使用nox框架進行微調，結合監督微調(SFT)和DPO學習方法。

Model Features

SGD方法

創新的自生成數據集創建方法，用於DPO學習，通過比較模型生成與正確答案來提升性能。

高性能

在HuggingFace開放大模型排行榜上綜合得分81.22，排名第一。

多樣化訓練數據

使用包含多種來源的監督微調數據集(datasets_enconv_4m)和DPO數據集(datasets_encomp_151k)。

Model Capabilities

文本生成

推理能力

問答系統

數學計算

語言理解

Use Cases

學術研究

AI2推理挑戰賽

解決複雜的科學推理問題

標準化準確率79.78

MMLU測試

多學科知識理解和應用

準確率77.95

商業應用

數學問題解決

解決GSM8k數學問題

準確率76.12

語言理解

HellaSwag常識推理

標準化準確率91.15

🚀 Rhea-72b-v0.5

Rhea項目致力於研究各種學習方法，以提升大語言模型（LLM）的性能。我們使用nox框架對現有模型進行微調。基於當前公開的數據集構建了用於SFT學習的數據集，並採用SGD（用於DPO學習的自生成數據集創建方法）為DPO學習創建了數據集。我們的模型在HuggingFace的Open LLM排行榜上排名第一。

image/jpeg

🚀 快速開始

本項目聚焦於提升大語言模型性能，通過獨特的數據集構建和微調方法，在Open LLM排行榜上取得優異成績。若你想深入瞭解模型的訓練和使用，可參考以下內容。

✨ 主要特性

SGD：用於DPO學習的自生成數據集創建方法

該方法為DPO（自監督學習）模型提出了一種新穎的數據集生成方式。我們建議將模型生成的句子與現有數據集中的實際正確答案進行比較，添加模型生成結果與正確答案不匹配的句子。這使模型能夠自主創建訓練數據，從而提高DPO模型的性能。

📚 詳細文檔

模型詳情

屬性	詳情
模型開發者	davidkim（changyeon kim）
倉庫地址	https://github.com/davidkim205/nox
基礎模型	abacusai/Smaug-72B-v0.1
SFT數據集	datasets_enconv_4m
DPO數據集	datasets_encomp_151k

sft數據集信息：datasets_enconv_4m

100k隨機打亂數據集

stack-exchange-preferences
SlimOrca
alpaca-gpt4
SHP
HC3
databricks-dolly-15k
orca-dpo-pairs
us-stockname
OpenHermes2.5-dpo-binarized-alpha
distilabel-math-preference-dpo
Neural-DPO
truthy-dpo-v0.1
distilabel-capybara-dpo-7k-binarized
us-sentiment
contextual-dpo-v0.1

1k隨機打亂數據集

bigbench
glue_mnli
glue_qqp
xnli
codexglue_code2text_go
trivia_qa
medmcqa
hendrycks_ethics
super_glue_record
glue_qnli
anli_r3
swag
squad_v2
nq_open
drop
glue_sst2
blimp
paws-x
unscramble
anli_r2
babi
math_qa
social_i_qa
piqa
arithmetic
anli_r1
prost
sciq
mc_taco
medqa
super_glue_boolq
hendrycks_math
lambada
toxigen-data
glue_cola
pubmed_qa
logiqa
mutual
headqa
bbh
super_glue_wic
openbookqa
glue_mrpc
web_questions
qasper
super_glue_multirc
story_cloze
super_glue_rte
glue_rte
race
xwinograd
asdiv
xstory_cloze
crows_pairs_multilingual
belebele
glue_wnli
super_glue_wsc
coqa
super_glue_copa
super_glue_cb
winograd_wsc
mgsm
scrolls_contract_nli

⚠️ 重要提示

如果找不到數據集，那是公司內部數據，無法公開。

dpo數據集信息：datasets_encomp_151k

我們從訓練數據集中的每個類別中隨機選擇數據，使用模型生成句子中對數低於均值的句子構建了DPO（直接偏好優化）數據集。

⚠️ 重要提示

很抱歉，我無法透露具體內容。

Open LLM排行榜評估結果

詳細結果可查看此處

指標	值
平均值	81.22
AI2推理挑戰（25次少樣本學習）	79.78
HellaSwag（10次少樣本學習）	91.15
MMLU（5次少樣本學習）	77.95
TruthfulQA（0次少樣本學習）	74.50
Winogrande（5次少樣本學習）	87.85
GSM8k（5次少樣本學習）	76.12