Platypus2-70B-instructオープンソース大規模言語モデル - 無料デプロイで指令遵守と論理推論をサポート

ホーム

Platypus2 70B Instruct

garage-bAIndによって開発

Platypus2-70B-instructはLLaMA 2アーキテクチャに基づく大規模言語モデルで、garage-bAIndとupstageAIのモデルを統合したもので、命令追従と論理的推論タスクに特化しています。

大規模言語モデル

Transformers

英語#STEM論理的推論 #マルチタスク命令微調整 #学術研究最適化

ダウンロード数 1,332

リリース時間 : 8/4/2023

モデル概要

このモデルはPlatypus2-70BとLlama-2-70b-instruct-v2の利点を組み合わせており、特にSTEMと論理的推論タスクに優れ、複雑な問題解決が必要なシナリオに適しています。

モデル特徴

強力な論理的推論能力

STEMと論理的基礎データセットでトレーニングされており、複雑な論理問題の解決に特に優れています

命令最適化

ユーザーの命令をより良く理解し追従するために特別に微調整されています

モデル統合技術

2つの高性能モデル(Platypus2-70BとLlama-2-70b-instruct)の利点を組み合わせています

モデル能力

テキスト生成

命令追従

論理的推論

STEM問題解答

知識質問応答

使用事例

教育

STEM教育支援

科学、技術、工学、数学の問題を理解し解決するのを学生を支援します

ARCチャレンジで71.84点を獲得

研究

学術研究支援

研究者が文献レビューや知識統合を行うのを支援します

MMLUベンチマークで70.48点を獲得

🚀 Platypus2-70B-instruct

Platypus-70B-instructは、garage-bAInd/Platypus2-70B と upstage/Llama-2-70b-instruct-v2 をマージしたモデルです。このモデルは、自然言語処理タスクにおいて高い性能を発揮することが期待されます。

Platty

🚀 クイックスタート

Platypus2-70B-instructを使用するには、まず必要なライブラリをインストールし、評価ハーネスをセットアップする必要があります。以下の手順に従って、モデルの評価を行うことができます。

✨ 主な機能

高性能な言語モデル：LLaMA 2のトランスフォーマーアーキテクチャに基づいた自己回帰型言語モデルで、自然言語処理タスクにおいて高い性能を発揮します。
多様なデータセットでの学習：STEMや論理に基づいたデータセットを使用して学習されており、幅広い知識を持っています。

📦 インストール

LM Evaluation Harnessをインストールするには、以下のコマンドを実行します。

# リポジトリをクローンする
git clone https://github.com/EleutherAI/lm-evaluation-harness.git
# リポジトリのディレクトリに移動する
cd lm-evaluation-harness
# 正しいコミットをチェックアウトする
git checkout b281b0921b636bc36ad05c0b0b0763bd6dd43463
# インストールする
pip install -e .

💻 使用例

基本的な使用法

ARCタスクでの評価を行うには、以下のコマンドを実行します。

python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Platypus2-70B-instruct --tasks arc_challenge --batch_size 1 --no_cache --write_out --output_path results/Platypus2-70B-instruct/arc_challenge_25shot.json --device cuda --num_fewshot 25

高度な使用法

HellaSwagタスクでの評価を行うには、以下のコマンドを実行します。

python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Platypus2-70B-instruct --tasks hellaswag --batch_size 1 --no_cache --write_out --output_path results/Platypus2-70B-instruct/hellaswag_10shot.json --device cuda --num_fewshot 10

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	Platypus2-70B-instruct は、LLaMA 2のトランスフォーマーアーキテクチャに基づいた自己回帰型言語モデルです。
訓練データ	`garage-bAInd/Platypus2-70B` は、STEMや論理に基づいたデータセット `garage-bAInd/Open-Platypus` を使用して訓練されました。
訓練者	Platypus2-70B はCole HunterとAriel Leeによって訓練され、Llama-2-70b-instruct はupstageAIによって訓練されました。
言語	英語
ライセンス	非商用クリエイティブ・コモンズ・ライセンス (CC BY-NC-4.0)

プロンプトテンプレート

### 指示:

<prompt> (<> を除く)

### 応答:

訓練手順

garage-bAInd/Platypus2-70B は、8台のA100 80GB GPUを使用してLoRAを用いた命令微調整が行われました。訓練の詳細や推論の指示については、Platypus のGitHubリポジトリを参照してください。

評価結果の再現

各タスクは、単一のA100 80GB GPUで評価されました。具体的な評価コマンドは「使用例」のセクションを参照してください。

制限とバイアス

Llama 2とその微調整バリアントは新しい技術であり、使用に伴うリスクがあります。これまでのテストは英語で行われており、すべてのシナリオをカバーしていない、またはカバーすることができない可能性があります。このため、すべての大規模言語モデルと同様に、Llama 2とその微調整バリアントの潜在的な出力は事前に予測することができず、モデルは場合によっては不正確、バイアスがある、またはその他の問題のある応答を生成する可能性があります。したがって、Llama 2バリアントのアプリケーションを展開する前に、開発者はモデルの特定のアプリケーションに合わせた安全性テストと調整を行う必要があります。

詳細は、責任ある使用ガイドを参照してください。

📄 ライセンス

このモデルは、非商用クリエイティブ・コモンズ・ライセンス (CC BY-NC-4.0) の下で提供されています。

🔧 技術詳細

詳細な技術情報については、論文とプロジェクトのウェブページを参照してください。

📖 引用

@article{platypus2023,
    title={Platypus: Quick, Cheap, and Powerful Refinement of LLMs}, 
    author={Ariel N. Lee and Cole J. Hunter and Nataniel Ruiz},
    booktitle={arXiv preprint arxiv:2308.07317},
    year={2023}
}

@misc{touvron2023llama,
    title={Llama 2: Open Foundation and Fine-Tuned Chat Models}, 
    author={Hugo Touvron and Louis Martin and Kevin Stone and Peter Albert and Amjad Almahairi and Yasmine Babaei and Nikolay Bashlykov},
    year={2023},
    eprint={2307.09288},
    archivePrefix={arXiv},
}

@inproceedings{
    hu2022lora,
    title={Lo{RA}: Low-Rank Adaptation of Large Language Models},
    author={Edward J Hu and Yelong Shen and Phillip Wallis and Zeyuan Allen-Zhu and Yuanzhi Li and Shean Wang and Lu Wang and Weizhu Chen},
    booktitle={International Conference on Learning Representations},
    year={2022},
    url={https://openreview.net/forum?id=nZeVKeeFYf9}
}

Open LLM Leaderboard評価結果

詳細な結果はこちらで確認できます。

指標	値
平均	66.89
ARC (25-shot)	71.84
HellaSwag (10-shot)	87.94
MMLU (5-shot)	70.48
TruthfulQA (0-shot)	62.26
Winogrande (5-shot)	82.72
GSM8K (5-shot)	40.56
DROP (3-shot)	52.41