🚀 Tulu V2 DPO 7B
Tuluは、役立つアシスタントとして機能するように訓練された一連の言語モデルです。Tulu V2 DPO 7Bは、公開されているデータセット、合成データセット、人間によるデータセットの混合を使用して微調整されたLlama 2のバージョンです。このモデルは、Llama 2 7b Chatの有力な代替手段です。
🚀 クイックスタート
Tulu V2 DPO 7Bは、役立つアシスタントとして機能するように訓練された言語モデルです。このモデルは、公開されているデータセット、合成データセット、人間によるデータセットの混合を使用して微調整されたLlama 2のバージョンです。
詳細については、論文 Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2 をご覧ください。
✨ 主な機能
モデルの説明
属性 |
详情 |
モデルタイプ |
公開されているデータセット、合成データセット、人間によって作成されたデータセットの混合を使用して、命令とRLHFでチューニングされたチャットモデルのグループに属するモデル |
言語 (NLP) |
主に英語 |
ライセンス |
AI2 ImpACT 低リスクライセンス |
微調整元のモデル |
meta-llama/Llama-2-7b-hf |
モデルのソース
パフォーマンス
モデル |
サイズ |
アライメント |
MT-Bench (スコア) |
AlpacaEval (勝率 %) |
Tulu-v2-7b 🐪 |
7B |
SFT |
6.30 |
73.9 |
Tulu-v2-dpo-7b 🐪 |
7B |
DPO |
6.29 |
85.1 |
Tulu-v2-13b 🐪 |
13B |
SFT |
6.70 |
78.9 |
Tulu-v2-dpo-13b 🐪 |
13B |
DPO |
7.00 |
89.5 |
Tulu-v2-70b 🐪 |
70B |
SFT |
7.49 |
86.6 |
Tulu-v2-dpo-70b 🐪 |
70B |
DPO |
7.89 |
95.1 |
入力フォーマット
モデルは、以下のフォーマット(改行に注意)を使用するように訓練されています。
<|user|>
Your message here!
<|assistant|>
最良の結果を得るには、すべての入力をこの形式でフォーマットしてください。<|assistant|>
の後に改行を含めることを確認してください。これは生成品質にかなり影響を与える可能性があります。
意図された用途と制限
このモデルは、最初に Tulu V2ミックスデータセット のフィルタリングされた前処理済みデータで微調整されました。このデータセットには、人間が作成した命令と、主に他のLLMによって生成された合成対話が含まれています。
その後、EasyLM 上に構築された Jax DPOトレーナー を使用して、openbmb/UltraFeedback データセットでモデルをさらにアライメントさせました。このデータセットには、GPT-4によってランク付けされた64kのプロンプトとモデルの完成文が含まれています。
バイアス、リスク、および制限
Tuluモデルは、RLHFフェーズで安全な完成文を生成するようにアライメントされておらず、ChatGPTのように応答のループ内フィルタリングで展開されていないため、問題のある出力を生成する可能性があります(特にそのように促された場合)。
また、ベースのLlama 2モデルを訓練するために使用されたコーパスのサイズと構成は不明ですが、Webデータと、書籍やコードなどの技術的なソースの混合が含まれている可能性があります。この例については、Falcon 180Bモデルカード を参照してください。
訓練ハイパーパラメータ
DPO訓練中に使用されたハイパーパラメータは以下の通りです。
- learning_rate: 5e-07
- total_train_batch_size: 32
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_ratio: 0.1
- num_epochs: 3.0
📄 ライセンス
このモデルは AI2 ImpACT 低リスクライセンスの下で提供されています。
引用
もしTulu 2があなたの研究に役立った場合、以下のように引用してください。
@misc{ivison2023camels,
title={Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2},
author={Hamish Ivison and Yizhong Wang and Valentina Pyatkin and Nathan Lambert and Matthew Peters and Pradeep Dasigi and Joel Jang and David Wadden and Noah A. Smith and Iz Beltagy and Hannaneh Hajishirzi},
year={2023},
eprint={2311.10702},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
モデルカードは Zephyr Beta から適応されています。