🚀 Llama 2
Llama 2は、70億から700億のパラメータ規模の事前学習済みおよびファインチューニング済みの生成型テキストモデルのコレクションです。このリポジトリは、対話ユースケースに最適化され、Hugging Face Transformers形式に変換された70Bファインチューニング済みモデルのものです。他のモデルへのリンクは、下部のインデックスに記載されています。
🚀 クイックスタート
このフォームは、Metaからアクセス許可を得た後、Hugging Face上でLlama 2にアクセスできるようにするためのものです。このフォームを提出する前に、Metaのウェブサイトにアクセスし、ライセンス条項と使用許諾ポリシーに同意してください。申請は1〜2日で処理されます。
⚠️ 重要提示
あなたのHugging Faceアカウントのメールアドレスは、Metaのウェブサイトで提供するメールアドレスと一致している必要があります。そうでない場合、申請は承認されません。
✨ 主な機能
Llama 2は、70億から700億のパラメータ規模の事前学習済みおよびファインチューニング済みの生成型テキストモデルのコレクションです。ファインチューニング済みのLlama-2-Chatモデルは、対話ユースケースに最適化されており、多くのベンチマークでオープンソースのチャットモデルを上回り、有用性と安全性に関する人間による評価では、ChatGPTやPaLMなどの人気のクローズドソースモデルと同等の性能を発揮します。
📚 ドキュメント
モデルの詳細
このモデルの使用はMetaのライセンスによって管理されています。モデルの重みとトークナイザーをダウンロードするには、ウェブサイトにアクセスし、ライセンスに同意してからアクセスを申請してください。
Metaは、70億から700億のパラメータ規模の事前学習済みおよびファインチューニング済みの生成型テキストモデルであるLlama 2シリーズの大規模言語モデル(LLM)を開発し、公開しました。ファインチューニング済みのLLMであるLlama-2-Chatは、対話ユースケースに最適化されています。Llama-2-Chatモデルは、テストしたほとんどのベンチマークでオープンソースのチャットモデルを上回り、有用性と安全性に関する人間による評価では、ChatGPTやPaLMなどの人気のクローズドソースモデルと同等の性能を発揮します。
意図された使用方法
- 意図されたユースケース:Llama 2は、英語での商用および研究用途を想定しています。調整されたモデルは、アシスタントのようなチャットに使用されることを想定しており、事前学習済みモデルは、さまざまな自然言語生成タスクに適応させることができます。
- 想定外の使用方法:適用される法律や規制(貿易コンプライアンス法を含む)に違反する方法での使用。英語以外の言語での使用。Llama 2の使用許諾ポリシーとライセンス契約で禁止されている他の方法での使用。
ハードウェアとソフトウェア
- 学習要因:事前学習には、カスタム学習ライブラリ、MetaのResearch Super Cluster、および本番クラスターを使用しました。ファインチューニング、アノテーション、および評価も、サードパーティのクラウドコンピューティング上で実行されました。
- 二酸化炭素排出量:事前学習には、A100-80GBタイプのハードウェアで累計330万GPU時間の計算が利用されました(TDPは350-400W)。推定総排出量は539tCO2eqで、その100%がMetaの持続可能性プログラムによって相殺されました。
モデル |
時間 (GPU時間) |
消費電力 (W) |
排出された二酸化炭素 (tCO₂eq) |
Llama 2 7B |
184320 |
400 |
31.22 |
Llama 2 13B |
368640 |
400 |
62.44 |
Llama 2 70B |
1720320 |
400 |
291.42 |
合計 |
3311616 |
|
539.00 |
事前学習中のCO₂排出量。時間:各モデルの学習に必要な総GPU時間。消費電力:使用されるGPUの各GPUデバイスのピーク電力容量を、電力使用効率で調整したもの。排出量の100%は、Metaの持続可能性プログラムによって直接相殺され、これらのモデルを公開しているため、他の人が事前学習コストを負担する必要はありません。
学習データ
- 概要:Llama 2は、公開されているソースからの2兆トークンのデータで事前学習されました。ファインチューニングデータには、公開されている命令データセットのほか、100万を超える新しい人間によるアノテーション付きの例が含まれています。事前学習データセットもファインチューニングデータセットも、Metaのユーザーデータを含んでいません。
- データの新鮮さ:事前学習データは2022年9月を切り捨てていますが、一部の調整データは2023年7月までの最新のものです。
評価結果
このセクションでは、標準的な学術ベンチマークにおけるLlama 1とLlama 2モデルの結果を報告します。すべての評価では、内部評価ライブラリを使用しています。
モデル |
サイズ |
コード |
常識推論 |
世界知識 |
読解力 |
数学 |
MMLU |
BBH |
AGI評価 |
Llama 1 |
7B |
14.1 |
60.8 |
46.2 |
58.5 |
6.95 |
35.1 |
30.3 |
23.9 |
Llama 1 |
13B |
18.9 |
66.1 |
52.6 |
62.3 |
10.9 |
46.9 |
37.0 |
33.9 |
Llama 1 |
33B |
26.0 |
70.0 |
58.4 |
67.6 |
21.4 |
57.8 |
39.8 |
41.7 |
Llama 1 |
65B |
30.7 |
70.7 |
60.5 |
68.6 |
30.8 |
63.4 |
43.5 |
47.6 |
Llama 2 |
7B |
16.8 |
63.9 |
48.9 |
61.3 |
14.6 |
45.3 |
32.6 |
29.3 |
Llama 2 |
13B |
24.5 |
66.9 |
55.4 |
65.8 |
28.7 |
54.8 |
39.4 |
39.1 |
Llama 2 |
70B |
37.5 |
71.9 |
63.6 |
69.4 |
35.2 |
68.9 |
51.2 |
54.2 |
グループ化された学術ベンチマークにおける全体的なパフォーマンス。コード:HumanEvalとMBPPでのモデルの平均pass@1スコアを報告します。常識推論:PIQA、SIQA、HellaSwag、WinoGrande、ARC easyおよびchallenge、OpenBookQA、およびCommonsenseQAの平均を報告します。CommonsenseQAについては7ショットの結果を、他のすべてのベンチマークについては0ショットの結果を報告します。世界知識:NaturalQuestionsとTriviaQAでの5ショットのパフォーマンスを評価し、平均を報告します。読解力:読解力については、SQuAD、QuAC、およびBoolQでの0ショットの平均を報告します。数学:GSM8K(8ショット)とMATH(4ショット)のベンチマークの上位1の平均を報告します。
モデル |
|
TruthfulQA |
Toxigen |
Llama 1 |
7B |
27.42 |
23.00 |
Llama 1 |
13B |
41.74 |
23.08 |
Llama 1 |
33B |
44.19 |
22.57 |
Llama 1 |
65B |
48.71 |
21.77 |
Llama 2 |
7B |
33.29 |
21.25 |
Llama 2 |
13B |
41.86 |
26.10 |
Llama 2 |
70B |
50.18 |
24.60 |
自動安全性ベンチマークにおける事前学習済みLLMの評価。TruthfulQAについては、真実で有益な生成の割合を報告します(数値が高いほど良い)。Toxigenについては、有毒な生成の割合を報告します(数値が低いほど良い)。
モデル |
|
TruthfulQA |
Toxigen |
Llama-2-Chat |
7B |
57.04 |
0.00 |
Llama-2-Chat |
13B |
62.18 |
0.00 |
Llama-2-Chat |
70B |
64.14 |
0.01 |
異なる安全性データセットにおけるファインチューニング済みLLMの評価。メトリックの定義は上記と同じです。
倫理的考慮事項と制限事項
Llama 2は、使用に伴ってリスクを伴う新しい技術です。これまでに行われたテストは英語で行われており、すべてのシナリオを網羅していない、または網羅することができない。これらの理由から、すべてのLLMと同様に、Llama 2の潜在的な出力を事前に予測することはできず、モデルは場合によっては、不正確、偏った、またはその他の不快な応答をユーザーのプロンプトに対して生成する可能性があります。したがって、Llama 2のアプリケーションを展開する前に、開発者は、モデルの特定のアプリケーションに合わせた安全性テストと調整を行う必要があります。
詳細については、責任ある使用ガイドを参照してください。
問題の報告
モデルのソフトウェアの「バグ」やその他の問題は、以下のいずれかの方法で報告してください。
Llamaモデルインデックス