Gemma-2-9B-It-SPPO-Iter3オープンソース言語モデル - 無料で利用可能な、高效な対話とコンテンツ創作のアシスタント

ホーム

Gemma 2 9B It SPPO Iter3

UCLA-AGIによって開発

自己対戦選好最適化手法を用いて第3反復で開発された89億パラメータ言語モデル。google/gemma-2-9b-itをベースに、UltraFeedbackデータセットで微調整

大規模言語モデル

Transformers

英語#自己対戦選好最適化 #多段階反復微調整 #英語テキスト生成

ダウンロード数 6,704

リリース時間 : 6/29/2024

モデル概要

このモデルは自己対戦選好最適化手法を用いてアライメント最適化を行い、主に英語テキスト生成タスクに使用

モデル特徴

自己対戦選好最適化

SPPO手法を用いて3回の反復最適化を実施し、モデル性能を向上

高品質データセット

UltraFeedbackデータセットと合成データを使用して訓練

反復的改善

3回の反復を経て、各反復ごとに性能が向上

モデル能力

英語テキスト生成

対話システム

コンテンツ作成

使用事例

対話システム

インテリジェントカスタマーサポート

英語のインテリジェントカスタマーサポート対話システム構築に使用

コンテンツ生成

記事作成

英語記事執筆やコンテンツ生成を支援

🚀 Gemma-2-9B-It-SPPO-Iter3

このモデルは、自然言語処理の分野における言語モデルのアライメントを目的として開発されました。Self-Play Preference Optimizationを用いて、google/gemma-2-9b-itをベースに微調整されています。

🚀 クイックスタート

このモデルは、Self-Play Preference Optimizationの3回目の反復で開発されました。出発点としてgoogle/gemma-2-9b-itのアーキテクチャを使用しています。openbmb/UltraFeedbackデータセットのプロンプトセットを利用し、snorkelai/Snorkel-Mistral-PairRM-DPO-Datasetによって3回の反復のために3つの部分に分割しました。使用されるすべての応答は合成されたものです。

利用規約: 利用規約

🔗 他のモデルへのリンク

📚 ドキュメント

モデルの説明

属性	详情
モデルタイプ	合成データセットで微調整された80億パラメータのGPTライクなモデル
言語 (NLP)	主に英語
ライセンス	Apache-2.0
微調整元のモデル	google/gemma-2-9b-it

AlpacaEval Leaderboard Evaluation Results

モデル	LC. Win Rate	Win Rate	Avg. Length
Gemma-2-9B-SPPO Iter1	48.70	40.76	1669
Gemma-2-9B-SPPO Iter2	50.93	44.64	1759
Gemma-2-9B-SPPO Iter3	53.27	47.74	1803

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 5e-07
eta: 1000
per_device_train_batch_size: 8
gradient_accumulation_steps: 1
seed: 42
distributed_type: deepspeed_zero3
num_devices: 8
optimizer: RMSProp
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
num_train_epochs: 1.0

📄 ライセンス

このモデルのライセンスは、Apache-2.0です。

📖 引用

@misc{wu2024self,
      title={Self-Play Preference Optimization for Language Model Alignment}, 
      author={Wu, Yue and Sun, Zhiqing and Yuan, Huizhuo and Ji, Kaixuan and Yang, Yiming and Gu, Quanquan},
      year={2024},
      eprint={2405.00675},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}