🚀 Platypus2-70B-instruct
Platypus-70B-instructは、garage-bAInd/Platypus2-70B
と upstage/Llama-2-70b-instruct-v2
をマージしたモデルです。このモデルは、自然言語処理タスクにおいて高い性能を発揮することが期待されます。

🚀 クイックスタート
Platypus2-70B-instructを使用するには、まず必要なライブラリをインストールし、評価ハーネスをセットアップする必要があります。以下の手順に従って、モデルの評価を行うことができます。
✨ 主な機能
- 高性能な言語モデル:LLaMA 2のトランスフォーマーアーキテクチャに基づいた自己回帰型言語モデルで、自然言語処理タスクにおいて高い性能を発揮します。
- 多様なデータセットでの学習:STEMや論理に基づいたデータセットを使用して学習されており、幅広い知識を持っています。
📦 インストール
LM Evaluation Harnessをインストールするには、以下のコマンドを実行します。
git clone https://github.com/EleutherAI/lm-evaluation-harness.git
cd lm-evaluation-harness
git checkout b281b0921b636bc36ad05c0b0b0763bd6dd43463
pip install -e .
💻 使用例
基本的な使用法
ARCタスクでの評価を行うには、以下のコマンドを実行します。
python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Platypus2-70B-instruct --tasks arc_challenge --batch_size 1 --no_cache --write_out --output_path results/Platypus2-70B-instruct/arc_challenge_25shot.json --device cuda --num_fewshot 25
高度な使用法
HellaSwagタスクでの評価を行うには、以下のコマンドを実行します。
python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Platypus2-70B-instruct --tasks hellaswag --batch_size 1 --no_cache --write_out --output_path results/Platypus2-70B-instruct/hellaswag_10shot.json --device cuda --num_fewshot 10
📚 ドキュメント
モデルの詳細
属性 |
详情 |
モデルタイプ |
Platypus2-70B-instruct は、LLaMA 2のトランスフォーマーアーキテクチャに基づいた自己回帰型言語モデルです。 |
訓練データ |
garage-bAInd/Platypus2-70B は、STEMや論理に基づいたデータセット garage-bAInd/Open-Platypus を使用して訓練されました。 |
訓練者 |
Platypus2-70B はCole HunterとAriel Leeによって訓練され、Llama-2-70b-instruct はupstageAIによって訓練されました。 |
言語 |
英語 |
ライセンス |
非商用クリエイティブ・コモンズ・ライセンス (CC BY-NC-4.0) |
プロンプトテンプレート
### 指示:
<prompt> (<> を除く)
### 応答:
訓練手順
garage-bAInd/Platypus2-70B
は、8台のA100 80GB GPUを使用してLoRAを用いた命令微調整が行われました。訓練の詳細や推論の指示については、Platypus のGitHubリポジトリを参照してください。
評価結果の再現
各タスクは、単一のA100 80GB GPUで評価されました。具体的な評価コマンドは「使用例」のセクションを参照してください。
制限とバイアス
Llama 2とその微調整バリアントは新しい技術であり、使用に伴うリスクがあります。これまでのテストは英語で行われており、すべてのシナリオをカバーしていない、またはカバーすることができない可能性があります。このため、すべての大規模言語モデルと同様に、Llama 2とその微調整バリアントの潜在的な出力は事前に予測することができず、モデルは場合によっては不正確、バイアスがある、またはその他の問題のある応答を生成する可能性があります。したがって、Llama 2バリアントのアプリケーションを展開する前に、開発者はモデルの特定のアプリケーションに合わせた安全性テストと調整を行う必要があります。
詳細は、責任ある使用ガイド を参照してください。
📄 ライセンス
このモデルは、非商用クリエイティブ・コモンズ・ライセンス (CC BY-NC-4.0) の下で提供されています。
🔧 技術詳細
詳細な技術情報については、論文 と プロジェクトのウェブページ を参照してください。
📖 引用
@article{platypus2023,
title={Platypus: Quick, Cheap, and Powerful Refinement of LLMs},
author={Ariel N. Lee and Cole J. Hunter and Nataniel Ruiz},
booktitle={arXiv preprint arxiv:2308.07317},
year={2023}
}
@misc{touvron2023llama,
title={Llama 2: Open Foundation and Fine-Tuned Chat Models},
author={Hugo Touvron and Louis Martin and Kevin Stone and Peter Albert and Amjad Almahairi and Yasmine Babaei and Nikolay Bashlykov},
year={2023},
eprint={2307.09288},
archivePrefix={arXiv},
}
@inproceedings{
hu2022lora,
title={Lo{RA}: Low-Rank Adaptation of Large Language Models},
author={Edward J Hu and Yelong Shen and Phillip Wallis and Zeyuan Allen-Zhu and Yuanzhi Li and Shean Wang and Lu Wang and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2022},
url={https://openreview.net/forum?id=nZeVKeeFYf9}
}
詳細な結果はこちら で確認できます。
指標 |
値 |
平均 |
66.89 |
ARC (25-shot) |
71.84 |
HellaSwag (10-shot) |
87.94 |
MMLU (5-shot) |
70.48 |
TruthfulQA (0-shot) |
62.26 |
Winogrande (5-shot) |
82.72 |
GSM8K (5-shot) |
40.56 |
DROP (3-shot) |
52.41 |