オープンソースGemma-2-9b-it-SimPOモデル - 嗜好最適化タスクを効率的に完了する手助け

ホーム

Gemma 2 9b It SimPO

princeton-nlpによって開発

SimPO目標に基づきgemma2-ultrafeedback-armormデータセットでファインチューニングされたGemma 2.9Bモデル、選好最適化タスク用

大規模言語モデル

Transformers

オープンソースライセンス:MIT #選好最適化 #参照モデル不要 #言語モデルアライメント

ダウンロード数 21.34k

リリース時間 : 7/16/2024

モデル概要

このモデルはSimPO（シンプル選好最適化）アルゴリズムを使用してGemma 2.9Bをベースにファインチューニングされ、選好最適化データセットを通じて大規模言語モデルのトレーニング効果を強化することを目的としています。

モデル特徴

SimPO最適化アルゴリズム

シンプルな選好最適化アルゴリズムを採用、参照モデル不要で報酬関数と生成確率のアライメントにより性能向上

効率的なトレーニング

H100 GPU 8枚で約100分のみでファインチューニング可能

性能向上

ベースモデルと比較し、複数の評価指標で優れたパフォーマンス

モデル能力

テキスト生成

選好最適化

質問応答システム

対話システム

使用事例

対話システム

インテリジェントQA

知識質問応答システムの構築に使用

AE2 LC評価で72.4点を達成

コンテンツ生成

長文生成

長く一貫性のあるテキストを生成

平均生成長1833トークン

🚀 gemma-2-9b-it-SimPOモデルカード

SimPO (Simple Preference Optimization) は、嗜好最適化データセットを用いた大規模言語モデル (LLM) の学習を強化するために設計されたオフライン嗜好最適化アルゴリズムです。SimPOは、報酬関数を生成尤度に合わせ、参照モデルを必要とせず、ターゲット報酬マージンを組み込んでパフォーマンスを向上させます。詳細については、プレプリントと GitHubリポジトリを参照してください。

🚀 クイックスタート

import torch
from transformers import pipeline

model_id = "princeton-nlp/gemma-2-9b-it-SimPO"

generator = pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",
)
outputs = generator([{"role": "user", "content": "What's the difference between llamas and alpacas?"}],
                      do_sample=False,
                      eos_token_id=[generator.tokenizer.convert_tokens_to_ids("<end_of_turn>"), generator.tokenizer.eos_token_id],
                      max_new_tokens=200)
print(outputs[0]['generated_text'])

✨ 主な機能

SimPOは、嗜好最適化データセットを用いて大規模言語モデルの学習を強化します。報酬関数を生成尤度に合わせ、参照モデルを必要とせず、ターゲット報酬マージンを組み込んでパフォーマンスを向上させます。

📚 ドキュメント

モデルの詳細

モデルの説明

私たちは、google/gemma-2-9b-it を princeton-nlp/gemma2-ultrafeedback-armorm 上でSimPOの目的でファインチューニングしました。

属性	详情
開発者	Yu Meng, Mengzhou Xia, Danqi Chen
モデルタイプ	因果言語モデル
ライセンス	gemma
ファインチューニング元のモデル	google/gemma-2-9b-it

モデルのソース

リポジトリ: https://github.com/princeton-nlp/SimPO
論文: https://arxiv.org/pdf/2405.14734

学習の詳細

学習データ

私たちは、princeton-nlp/gemma2-ultrafeedback-armorm を嗜好最適化データセットとして使用しました。

学習ハイパーパラメータ

使用されたハイパーパラメータは、学習スクリプトで確認できます。

速度、サイズ、時間

google/gemma-2-9b-it を princeton-nlp/gemma2-ultrafeedback-armorm 上でファインチューニングするのに、8台のH100 GPUで約100分かかります。

評価結果

モデル	AE2 LC	AE2 WR	AE2 長さ	AH	AH 長さ	GSM	GSM 長さ	MMLU	MMLU 長さ
google/gemma-2-9b-it	51.1	38.1	1571	40.8	545	87.4	395	72.7	515
princeton-nlp/gemma-2-9b-it-DPO	67.8	65.4	2016	58.9	717	88.5	392	72.2	624
princeton-nlp/gemma-2-9b-it-SimPO	72.4	65.9	1833	59.1	693	88.0	341	72.2	441

技術仕様

モデルアーキテクチャと目的

モデルアーキテクチャは、google/gemma-2-9b-it に基づいています。私たちは、プレプリントで提案されたSimPOの学習目的を使用しています。

ハードウェア

モデルの学習には、8台のH100 GPUを使用しました。

ソフトウェア

学習は、alignment-handbook ライブラリを使用して行われました。

引用

gemmaモデル

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

SimPO論文

@article{meng2024simpo,
  title={{SimPO}: Simple preference optimization with a reference-free reward},
  author={Meng, Yu and Xia, Mengzhou and Chen, Danqi},
  journal={arXiv preprint arXiv:2405.14734},
  year={2024}
}

UltraFeedback論文

@article{cui2023ultrafeedback,
  title={{UltraFeedback}: Boosting language models with high-quality feedback},
  author={Cui, Ganqu and Yuan, Lifan and Ding, Ning and Yao, Guanming and Zhu, Wei and Ni, Yuan and Xie, Guotong and Liu, Zhiyuan and Sun, Maosong},
  journal={arXiv preprint arXiv:2310.01377},
  year={2023}
}

ArmoRM論文

@article{wang2024interpretable,
  title={Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts},
  author={Wang, Haoxiang and Xiong, Wei and Xie, Tengyang and Zhao, Han and Zhang, Tong},
  journal={arXiv preprint arXiv:2406.12845},
  year={2024}
}