tulu-2-dpo-7bオープンソース言語モデル - 無料でデプロイ可能な汎用アシスタント、多様なニーズを効率的に解決

ホーム

Tulu 2 Dpo 7b

allenaiによって開発

Tulu V2 DPO 7BはLlama 2 7Bを微調整した言語モデルで、直接選好最適化(DPO)手法を用いて訓練され、汎用アシスタントとして設計されています。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #命令最適化アシスタント #DPOアライメント #マルチターン対話強化

ダウンロード数 1,702

リリース時間 : 11/13/2023

モデル概要

このモデルはLlama 2 7Bの命令微調整バージョンで、公開利用可能なデータセット、合成データ、人間作成データセットを使用して訓練され、特にDPO手法による選好最適化が施されており、Llama 2 7B Chatの有力な代替品です。

モデル特徴

直接選好最適化(DPO)

DPO手法を採用した訓練により、従来のRLHFと比べて効率的な選好アライメントを実現

多様な訓練データ

公開データ、合成データ、人間作成データセットの混合を使用（UltraFeedbackやTulu V2 SFT混合データセットを含む）

高性能代替案

ベースとなるLlama 2 7B Chatモデルと比較し、複数のベンチマークで優れた性能を発揮

モデル能力

自然言語理解

命令追従

対話生成

テキスト補完

使用事例

対話システム

インテリジェントアシスタント

個人や企業向けのインテリジェントアシスタントとして、様々な問い合わせやタスクを処理

AlpacaEvalベンチマークで85.1%の勝率を達成

コンテンツ生成

クリエイティブライティング

ストーリー創作、詩作などのクリエイティブなテキスト生成を支援

🚀 Tulu V2 DPO 7B

Tuluは、役立つアシスタントとして機能するように訓練された一連の言語モデルです。Tulu V2 DPO 7Bは、公開されているデータセット、合成データセット、人間によるデータセットの混合を使用して微調整されたLlama 2のバージョンです。このモデルは、Llama 2 7b Chatの有力な代替手段です。

🚀 クイックスタート

Tulu V2 DPO 7Bは、役立つアシスタントとして機能するように訓練された言語モデルです。このモデルは、公開されているデータセット、合成データセット、人間によるデータセットの混合を使用して微調整されたLlama 2のバージョンです。

詳細については、論文 Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2 をご覧ください。

✨ 主な機能

モデルの説明

属性	详情
モデルタイプ	公開されているデータセット、合成データセット、人間によって作成されたデータセットの混合を使用して、命令とRLHFでチューニングされたチャットモデルのグループに属するモデル
言語 (NLP)	主に英語
ライセンス	AI2 ImpACT 低リスクライセンス
微調整元のモデル	meta-llama/Llama-2-7b-hf

モデルのソース

リポジトリ: https://github.com/allenai/open-instruct
DPOレシピ: DPOレシピは Zephyr Beta モデルから取得されました。
モデルファミリー: 他のモデルとデータセットは Tulu V2コレクションで見つけることができます。

パフォーマンス

モデル	サイズ	アライメント	MT-Bench (スコア)	AlpacaEval (勝率 %)
Tulu-v2-7b 🐪	7B	SFT	6.30	73.9
Tulu-v2-dpo-7b 🐪	7B	DPO	6.29	85.1
Tulu-v2-13b 🐪	13B	SFT	6.70	78.9
Tulu-v2-dpo-13b 🐪	13B	DPO	7.00	89.5
Tulu-v2-70b 🐪	70B	SFT	7.49	86.6
Tulu-v2-dpo-70b 🐪	70B	DPO	7.89	95.1

入力フォーマット

モデルは、以下のフォーマット（改行に注意）を使用するように訓練されています。

<|user|>
Your message here!
<|assistant|>

最良の結果を得るには、すべての入力をこの形式でフォーマットしてください。<|assistant|> の後に改行を含めることを確認してください。これは生成品質にかなり影響を与える可能性があります。

意図された用途と制限

このモデルは、最初に Tulu V2ミックスデータセットのフィルタリングされた前処理済みデータで微調整されました。このデータセットには、人間が作成した命令と、主に他のLLMによって生成された合成対話が含まれています。

その後、EasyLM 上に構築された Jax DPOトレーナーを使用して、openbmb/UltraFeedback データセットでモデルをさらにアライメントさせました。このデータセットには、GPT-4によってランク付けされた64kのプロンプトとモデルの完成文が含まれています。

バイアス、リスク、および制限

Tuluモデルは、RLHFフェーズで安全な完成文を生成するようにアライメントされておらず、ChatGPTのように応答のループ内フィルタリングで展開されていないため、問題のある出力を生成する可能性があります（特にそのように促された場合）。

また、ベースのLlama 2モデルを訓練するために使用されたコーパスのサイズと構成は不明ですが、Webデータと、書籍やコードなどの技術的なソースの混合が含まれている可能性があります。この例については、Falcon 180Bモデルカードを参照してください。

訓練ハイパーパラメータ

DPO訓練中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 5e-07
total_train_batch_size: 32
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
num_epochs: 3.0

📄 ライセンス

このモデルは AI2 ImpACT 低リスクライセンスの下で提供されています。

引用

もしTulu 2があなたの研究に役立った場合、以下のように引用してください。

@misc{ivison2023camels,
      title={Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2}, 
      author={Hamish Ivison and Yizhong Wang and Valentina Pyatkin and Nathan Lambert and Matthew Peters and Pradeep Dasigi and Joel Jang and David Wadden and Noah A. Smith and Iz Beltagy and Hannaneh Hajishirzi},
      year={2023},
      eprint={2311.10702},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

モデルカードは Zephyr Beta から適応されています。