🚀 speechless-llama2-orca-platypus-13b
speechless-llama2-orca-platypus-13bは、AIDC-ai-business/Luban-13BとOpen-Orca/OpenOrca-Platypus2-13Bをマージしたモデルです。
指標 |
値 |
ARC |
62.54 |
HellaSwag |
82.76 |
MMLU |
59.23 |
TruthfulQA |
54.66 |
平均 |
64.80 |
🚀 クイックスタート
このセクションでは、Llama 2モデルの概要と利用方法について説明します。
✨ 主な機能
- Llama 2は、70億から700億パラメータまでの規模の事前学習およびファインチューニングされた生成型テキストモデルのコレクションです。
- ファインチューニングされたLlama-2-Chatモデルは、対話ユースケースに最適化されており、多くのベンチマークでオープンソースのチャットモデルを上回ります。
📚 ドキュメント
Llama 2について
Llama 2は、70億から700億パラメータまでの規模の事前学習およびファインチューニングされた生成型テキストモデルのコレクションです。これは、13B事前学習モデルのリポジトリで、Hugging Face Transformersフォーマットに変換されています。他のモデルへのリンクは、下部のインデックスに記載されています。
モデルの詳細
注: このモデルの使用は、Metaのライセンスによって管理されています。モデルの重みとトークナイザーをダウンロードするには、ウェブサイトにアクセスし、ライセンスを受け入れてから、ここでアクセスを要求してください。
Metaは、70億から700億パラメータまでの規模の事前学習およびファインチューニングされた生成型テキストモデルのコレクションであるLlama 2ファミリーの大規模言語モデル(LLM)を開発し、公開しました。ファインチューニングされたLLMであるLlama-2-Chatは、対話ユースケースに最適化されています。Llama-2-Chatモデルは、テストしたほとんどのベンチマークでオープンソースのチャットモデルを上回り、有用性と安全性に関する人間の評価では、ChatGPTやPaLMなどの一部の人気のあるクローズドソースモデルと同等の性能を発揮します。
モデル開発者 Meta
バリエーション Llama 2には、7B、13B、70Bのパラメータサイズのバリエーションがあり、事前学習とファインチューニングのバージョンが用意されています。
入力 モデルはテキストのみを入力として受け取ります。
出力 モデルはテキストのみを生成します。
モデルアーキテクチャ Llama 2は、最適化されたトランスフォーマーアーキテクチャを使用する自己回帰型言語モデルです。調整されたバージョンは、教師付きファインチューニング(SFT)と人間のフィードバックを用いた強化学習(RLHF)を使用して、有用性と安全性に関する人間の好みに合わせて調整されています。
モデル |
学習データ |
パラメータ |
コンテンツ長 |
GQA |
トークン |
学習率 |
Llama 2 |
公開されているオンラインデータの新しい混合 |
7B |
4k |
❌ |
2.0T |
3.0 x 10-4 |
Llama 2 |
公開されているオンラインデータの新しい混合 |
13B |
4k |
❌ |
2.0T |
3.0 x 10-4 |
Llama 2 |
公開されているオンラインデータの新しい混合 |
70B |
4k |
✅ |
2.0T |
1.5 x 10-4 |
Llama 2ファミリーのモデル トークン数は、事前学習データのみを指します。すべてのモデルは、グローバルバッチサイズ4Mトークンで学習されています。より大きなモデル(70B)は、推論の拡張性を向上させるためにGrouped-Query Attention(GQA)を使用しています。
モデルの作成日 Llama 2は、2023年1月から7月の間に学習されました。
ステータス これは、オフラインデータセットで学習された静的モデルです。将来的には、コミュニティのフィードバックを元にモデルの安全性を向上させたファインチューニングモデルの新バージョンがリリースされます。
ライセンス カスタム商用ライセンスは、こちらで入手できます。
研究論文 "Llama-2: Open Foundation and Fine-tuned Chat Models"
想定される使用方法
想定されるユースケース Llama 2は、英語での商用および研究用途を想定しています。ファインチューニングされたモデルは、アシスタントのようなチャットに使用されることを想定しており、事前学習モデルは、さまざまな自然言語生成タスクに適用できます。
チャットバージョンの期待される機能とパフォーマンスを得るには、INST
と <<SYS>>
タグ、BOS
と EOS
トークン、およびそれらの間の空白と改行を含む特定のフォーマットに従う必要があります(入力に strip()
を呼び出して二重スペースを避けることをお勧めします)。詳細については、GitHubのリファレンスコードを参照してください:chat_completion
。
想定外の使用方法 適用される法律や規制に違反する方法での使用(貿易コンプライアンス法を含む)。英語以外の言語での使用。Llama 2の許容使用ポリシーおよびライセンス契約で禁止されている他の方法での使用。
ハードウェアとソフトウェア
学習要因 事前学習には、カスタム学習ライブラリ、MetaのResearch Super Cluster、および本番クラスターを使用しました。ファインチューニング、アノテーション、および評価も、サードパーティのクラウドコンピューティング上で実行されました。
二酸化炭素排出量 事前学習には、A100-80GBタイプのハードウェアで累計330万GPU時間の計算が利用されました(TDPは350 - 400W)。推定総排出量は539tCO2eqで、その100%がMetaの持続可能性プログラムによって相殺されました。
モデル |
時間 (GPU時間) |
消費電力 (W) |
排出された二酸化炭素量 (tCO2eq) |
Llama 2 7B |
184320 |
400 |
31.22 |
Llama 2 13B |
368640 |
400 |
62.44 |
Llama 2 70B |
1720320 |
400 |
291.42 |
合計 |
3311616 |
|
539.00 |
事前学習中のCO2排出量 時間:各モデルの学習に必要な総GPU時間。消費電力:使用されたGPUのデバイスごとのピーク電力容量を電力使用効率で調整したもの。排出量の100%は、Metaの持続可能性プログラムによって直接相殺されており、これらのモデルを公開しているため、他の人が事前学習コストを負担する必要はありません。
学習データ
概要 Llama 2は、公開されているソースからの2兆トークンのデータで事前学習されました。ファインチューニングデータには、公開されている命令データセットと、100万を超える新しい人間によるアノテーション付きの例が含まれています。事前学習データセットとファインチューニングデータセットのどちらにも、Metaのユーザーデータは含まれていません。
データの新鮮さ 事前学習データのカットオフは2022年9月ですが、一部の調整データは2023年7月までの最新のものです。
評価結果
このセクションでは、標準的な学術ベンチマークにおけるLlama 1とLlama 2モデルの結果を報告します。すべての評価には、内部評価ライブラリを使用しています。
モデル |
サイズ |
コード |
常識推論 |
世界知識 |
読解力 |
数学 |
MMLU |
BBH |
AGI評価 |
Llama 1 |
7B |
14.1 |
60.8 |
46.2 |
58.5 |
6.95 |
35.1 |
30.3 |
23.9 |
Llama 1 |
13B |
18.9 |
66.1 |
52.6 |
62.3 |
10.9 |
46.9 |
37.0 |
33.9 |
Llama 1 |
33B |
26.0 |
70.0 |
58.4 |
67.6 |
21.4 |
57.8 |
39.8 |
41.7 |
Llama 1 |
65B |
30.7 |
70.7 |
60.5 |
68.6 |
30.8 |
63.4 |
43.5 |
47.6 |
Llama 2 |
7B |
16.8 |
63.9 |
48.9 |
61.3 |
14.6 |
45.3 |
32.6 |
29.3 |
Llama 2 |
13B |
24.5 |
66.9 |
55.4 |
65.8 |
28.7 |
54.8 |
39.4 |
39.1 |
Llama 2 |
70B |
37.5 |
71.9 |
63.6 |
69.4 |
35.2 |
68.9 |
51.2 |
54.2 |
グループ化された学術ベンチマークにおける全体的なパフォーマンス コード: HumanEvalとMBPPでのモデルの平均pass@1スコアを報告します。常識推論: PIQA、SIQA、HellaSwag、WinoGrande、ARC easyおよびchallenge、OpenBookQA、およびCommonsenseQAの平均を報告します。CommonSenseQAについては7ショットの結果を、他のすべてのベンチマークについては0ショットの結果を報告します。世界知識: NaturalQuestionsとTriviaQAでの5ショットのパフォーマンスを評価し、平均を報告します。読解力: 読解力については、SQuAD、QuAC、およびBoolQでの0ショットの平均を報告します。数学: GSM8K(8ショット)とMATH(4ショット)ベンチマークの上位1の平均を報告します。
|
|
TruthfulQA |
Toxigen |
Llama 1 |
7B |
27.42 |
23.00 |
Llama 1 |
13B |
41.74 |
23.08 |
Llama 1 |
33B |
44.19 |
22.57 |
Llama 1 |
65B |
48.71 |
21.77 |
Llama 2 |
7B |
33.29 |
21.25 |
Llama 2 |
13B |
41.86 |
26.10 |
Llama 2 |
70B |
50.18 |
24.60 |
自動安全ベンチマークにおける事前学習LLMの評価 TruthfulQAについては、真実で有益な生成の割合を示します(数値が高いほど良い)。Toxigenについては、有毒な生成の割合を示します(数値が低いほど良い)。
|
|
TruthfulQA |
Toxigen |
Llama-2-Chat |
7B |
57.04 |
0.00 |
Llama-2-Chat |
13B |
62.18 |
0.00 |
Llama-2-Chat |
70B |
64.14 |
0.01 |
異なる安全データセットにおけるファインチューニングLLMの評価 上記と同じメトリック定義です。
倫理的考慮事項と制限事項
Llama 2は、使用に伴うリスクを抱える新しい技術です。これまでに行われたテストは英語で行われており、すべてのシナリオを網羅しているわけではありません。これらの理由から、すべてのLLMと同様に、Llama 2の潜在的な出力を事前に予測することはできず、モデルは場合によっては、不正確、偏った、またはその他の不快な応答を生成する可能性があります。したがって、Llama 2のアプリケーションを展開する前に、開発者はモデルの特定のアプリケーションに合わせた安全テストと調整を行う必要があります。
詳細については、責任ある使用ガイドを参照してください。
問題の報告
モデルに関するソフトウェアの「バグ」やその他の問題は、以下のいずれかの方法で報告してください:
Llamaモデルインデックス
📄 ライセンス
カスタム商用ライセンスは、こちらで入手できます。