🚀 Llama 2
Llama 2是一系列預訓練和微調的生成式文本模型,參數規模從70億到700億不等。此倉庫為700億參數的微調模型,針對對話用例進行了優化,並轉換為Hugging Face Transformers格式。其他模型的鏈接可在底部索引中找到。
🚀 快速開始
在使用此模型前,請知悉其受Meta許可證的約束。若要下載模型權重和分詞器,請先訪問Meta官網,接受許可協議,再在此處申請訪問權限。
✨ 主要特性
- 參數規模多樣:Llama 2有70億、130億和700億等不同參數規模的版本,還有預訓練和微調等不同變體。
- 對話優化:微調後的Llama-2-Chat模型針對對話用例進行了優化,在多數測試基準中表現優於開源聊天模型,在人工評估的有用性和安全性方面,與ChatGPT和PaLM等流行的閉源模型相當。
- 架構先進:採用優化的Transformer架構,微調版本使用監督微調(SFT)和基於人類反饋的強化學習(RLHF),以符合人類對有用性和安全性的偏好。
📚 詳細文檔
模型詳情
Meta開發並公開發布了Llama 2系列大語言模型(LLM),這是一系列預訓練和微調的生成式文本模型,參數規模從70億到700億不等。微調後的LLM(Llama-2-Chat)針對對話用例進行了優化。
- 模型開發者:Meta
- 變體:Llama 2有不同的參數規模(7B、13B和70B),以及預訓練和微調等變體。
- 輸入:模型僅接受文本輸入。
- 輸出:模型僅生成文本輸出。
- 模型架構:Llama 2是自迴歸語言模型,採用優化的Transformer架構。微調版本使用監督微調(SFT)和基於人類反饋的強化學習(RLHF)。
訓練數據
- 概述:Llama 2在2萬億公開數據令牌上進行預訓練,微調數據包括公開指令數據集和超100萬條新人工標註示例,預訓練和微調數據集均不包含Meta用戶數據。
- 數據時效性:預訓練數據截止到2022年9月,部分微調數據更新至2023年7月。
評估結果
在標準學術基準測試中,Llama 2在多個維度上表現優於Llama 1。
綜合學術基準測試
模型 |
規模 |
代碼 |
常識推理 |
世界知識 |
閱讀理解 |
數學 |
MMLU |
BBH |
AGI評估 |
Llama 1 |
7B |
14.1 |
60.8 |
46.2 |
58.5 |
6.95 |
35.1 |
30.3 |
23.9 |
Llama 1 |
13B |
18.9 |
66.1 |
52.6 |
62.3 |
10.9 |
46.9 |
37.0 |
33.9 |
Llama 1 |
33B |
26.0 |
70.0 |
58.4 |
67.6 |
21.4 |
57.8 |
39.8 |
41.7 |
Llama 1 |
65B |
30.7 |
70.7 |
60.5 |
68.6 |
30.8 |
63.4 |
43.5 |
47.6 |
Llama 2 |
7B |
16.8 |
63.9 |
48.9 |
61.3 |
14.6 |
45.3 |
32.6 |
29.3 |
Llama 2 |
13B |
24.5 |
66.9 |
55.4 |
65.8 |
28.7 |
54.8 |
39.4 |
39.1 |
Llama 2 |
70B |
37.5 |
71.9 |
63.6 |
69.4 |
35.2 |
68.9 |
51.2 |
54.2 |
安全基準測試
模型 |
TruthfulQA |
Toxigen |
Llama 1(7B) |
27.42 |
23.00 |
Llama 1(13B) |
41.74 |
23.08 |
Llama 1(33B) |
44.19 |
22.57 |
Llama 1(65B) |
48.71 |
21.77 |
Llama 2(7B) |
33.29 |
21.25 |
Llama 2(13B) |
41.86 |
26.10 |
Llama 2(70B) |
50.18 |
24.60 |
微調模型安全測試
模型 |
TruthfulQA |
Toxigen |
Llama-2-Chat(7B) |
57.04 |
0.00 |
Llama-2-Chat(13B) |
62.18 |
0.00 |
Llama-2-Chat(70B) |
64.14 |
0.01 |
預期用途
- 預期用例:Llama 2適用於英語的商業和研究用途。微調模型適用於類似助手的聊天場景,預訓練模型可用於各種自然語言生成任務。
- 非預期用途:禁止以任何違反適用法律法規(包括貿易合規法律)的方式使用;禁止在英語以外的語言環境中使用;禁止以違反Llama 2可接受使用政策和許可協議的任何其他方式使用。
硬件和軟件
- 訓練因素:預訓練使用了自定義訓練庫、Meta的研究超級集群和生產集群。微調、標註和評估也在第三方雲計算平臺上進行。
- 碳足跡:預訓練在A100 - 80GB(TDP為350 - 400W)硬件上累計使用了330萬個GPU小時的計算資源。估計總排放量為539 tCO2eq,全部由Meta的可持續發展計劃抵消。
模型 |
時間(GPU小時) |
功耗(W) |
碳排放(tCO₂eq) |
Llama 2 7B |
184320 |
400 |
31.22 |
Llama 2 13B |
368640 |
400 |
62.44 |
Llama 2 70B |
1720320 |
400 |
291.42 |
總計 |
3311616 |
|
539.00 |
🔧 技術細節
- 模型訓練:Llama 2在2萬億公開數據令牌上進行預訓練,微調數據包括公開指令數據集和超100萬條新人工標註示例。
- 架構優化:採用優化的Transformer架構,微調版本使用監督微調(SFT)和基於人類反饋的強化學習(RLHF),以符合人類對有用性和安全性的偏好。
📄 許可證
自定義商業許可證可在https://ai.meta.com/resources/models-and-libraries/llama-downloads/獲取。
注意事項
倫理考量與侷限性
Llama 2是一項新技術,使用時存在風險。目前的測試僅在英語環境中進行,無法涵蓋所有場景。因此,與所有大語言模型一樣,Llama 2的潛在輸出無法提前預測,在某些情況下,模型可能會對用戶提示產生不準確、有偏見或其他令人反感的回覆。因此,在部署Llama 2的任何應用程序之前,開發人員應針對模型的特定應用進行安全測試和調整。
請參閱負責任使用指南。
問題反饋
請通過以下方式報告軟件“漏洞”或模型的其他問題:
Llama模型索引