Rhea-72b-v0.5オープンソース大規模言語モデル - ランキングで首位を占め、無料で効率的な質問応答体験を手に入れましょう

ホーム

Rhea 72b V0.5

davidkim205によって開発

Rhea-72b-v0.5はSmaug-72B-v0.1を微調整した大規模言語モデルで、HuggingFaceオープン大規模モデルランキングで1位を獲得しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #72B大規模モデル #DPO最適化 #マルチタスク推論

ダウンロード数 103

リリース時間 : 3/22/2024

モデル概要

Rheaプロジェクトは大規模言語モデルの性能向上のための様々な学習方法を研究しており、noxフレームワークを使用した微調整、教師あり微調整(SFT)とDPO学習方法を組み合わせています。

モデル特徴

SGD手法

DPO学習のための革新的な自己生成データセット作成方法で、モデル生成と正解を比較することで性能を向上させます。

高性能

HuggingFaceオープン大規模モデルランキングで総合スコア81.22を獲得し、1位を記録しました。

多様な訓練データ

複数のソースを含む教師あり微調整データセット(datasets_enconv_4m)とDPOデータセット(datasets_encomp_151k)を使用しています。

モデル能力

テキスト生成

推論能力

質問応答システム

数学計算

言語理解

使用事例

学術研究

AI2推論チャレンジ

複雑な科学的推論問題の解決

標準化精度79.78

MMLUテスト

多分野知識の理解と応用

精度77.95

ビジネス応用

数学問題解決

GSM8k数学問題の解決

精度76.12

言語理解

HellaSwag常識推論

標準化精度91.15

🚀 Rhea-72b-v0.5

Rheaプロジェクトは、LLMモデルのパフォーマンスを向上させるために、様々な学習方法に関する研究を行っています。このモデルは、特定のフレームワークを用いて微調整され、独自のデータセットを使って学習されています。

image/jpeg

Rheaプロジェクトは、LLMモデルのパフォーマンス向上のために、様々な学習方法に関する研究を行っています。私たちは、noxフレームワークを使用して既存のモデルを微調整しました。現在公開されているデータセットに基づいてSFT学習用のデータセットを構築し、SGD（DPO学習用の自己生成データセット作成方法）を使用してDPO学習用のデータセットを作成しました。

当社のモデルは、HuggingFaceのOpen LLMリーダーボードで1位にランクインしました。

✨ 主な機能

SGD : A Study on Self-Generated Dataset creation method for DPO Learning

この手法は、DPO（自己教師付き学習）モデル用のデータセットを生成する新しい方法を提案しています。モデルが生成した文を既存のデータセットの実際の正解と比較し、モデルの生成結果が正解と一致しない文を追加する手法を提案します。これにより、モデルが自律的に学習データを作成することができ、DPOモデルのパフォーマンスを向上させることができます。

📚 ドキュメント

モデルの詳細

属性	详情
モデル開発者	davidkim(changyeon kim)
リポジトリ	https://github.com/davidkim205/nox
ベースモデル	abacusai/Smaug-72B-v0.1
SFTデータセット	datasets_enconv_4m
DPOデータセット	datasets_encomp_151k

sft dataset info : datasets_enconv_4m

100k random shuffle datasets

stack-exchange-preferences
SlimOrca
alpaca-gpt4
SHP
HC3
databricks-dolly-15k
orca-dpo-pairs
us-stockname
OpenHermes2.5-dpo-binarized-alpha
distilabel-math-preference-dpo
Neural-DPO
truthy-dpo-v0.1
distilabel-capybara-dpo-7k-binarized
us-sentiment
contextual-dpo-v0.1

1k random shuffle datasets

bigbench
glue_mnli
glue_qqp
xnli
codexglue_code2text_go
trivia_qa
medmcqa
hendrycks_ethics
super_glue_record
glue_qnli
anli_r3
swag
squad_v2
nq_open
drop
glue_sst2
blimp
paws-x
unscramble
anli_r2
babi
math_qa
social_i_qa
piqa
arithmetic
anli_r1
prost
sciq
mc_taco
medqa
super_glue_boolq
hendrycks_math
lambada
toxigen-data
glue_cola
pubmed_qa
logiqa
mutual
headqa
bbh
super_glue_wic
openbookqa
glue_mrpc
web_questions
qasper
super_glue_multirc
story_cloze
super_glue_rte
glue_rte
race
xwinograd
asdiv
xstory_cloze
crows_pairs_multilingual
belebele
glue_wnli
super_glue_wsc
coqa
super_glue_copa
super_glue_cb
winograd_wsc
mgsm
scrolls_contract_nli

データセットが見つからない場合は、社内データであり、公開することができません。

dpo dataset info : datasets_encomp_151k

学習データセット内の各カテゴリからランダムにデータを選択し、モデルが生成した文のうち平均よりも低いロジットを持つ文を使用してDPO（直接嗜好最適化）データセットを構築しました。

申し訳ありませんが、公開することはできません。

📊 評価結果

Open LLM Leaderboard Evaluation Results

詳細な結果はこちらで確認できます。

評価指標	値
平均	81.22
AI2 Reasoning Challenge (25-Shot)	79.78
HellaSwag (10-Shot)	91.15
MMLU (5-Shot)	77.95
TruthfulQA (0-shot)	74.50
Winogrande (5-shot)	87.85
GSM8k (5-shot)	76.12