模型概述
模型特點
模型能力
使用案例
🚀 Llama 3.2 多語言大語言模型
Llama 3.2 是一系列多語言大語言模型,涵蓋 1B 和 3B 規模的預訓練及指令微調生成模型。它針對多語言對話場景進行了優化,在常見行業基準測試中表現出色,能為商業和研究領域提供強大支持。
🚀 快速開始
若你想使用 Llama 3.2 模型,需遵循 Llama 3.2 社區許可協議。在使用前,請仔細閱讀協議條款,並按要求提供相關信息進行申請。申請通過後,你可依據模型文檔和示例代碼開始使用。具體使用說明和反饋方式可參考以下鏈接:
- 模型反饋說明:Llama 模型 README
- 技術信息和使用方法:Llama 3.2 使用指南
✨ 主要特性
- 多語言支持:官方支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語,且在更多語言上進行了訓練。
- 優化架構:採用優化的 Transformer 架構,結合監督微調(SFT)和基於人類反饋的強化學習(RLHF),使模型更符合人類偏好。
- 廣泛應用:適用於商業和研究領域,如對話、知識檢索、總結、移動寫作助手等。
- 量化優化:提供量化模型,適用於計算資源有限的設備,同時保持較好的性能。
📦 安裝指南
文檔未提及具體安裝步驟,暫不提供相關內容。
💻 使用示例
文檔未提供代碼示例,暫不提供相關內容。
📚 詳細文檔
模型信息
- 模型開發者:Meta
- 模型架構:自迴歸語言模型,採用優化的 Transformer 架構,微調版本使用 SFT 和 RLHF 進行對齊。
- 訓練數據:使用公開數據源的多達 9 萬億個標記的數據進行預訓練,1B 和 3B 模型在預訓練階段融入了 Llama 3.1 8B 和 70B 模型的 logits。
- 模型參數: | 屬性 | 詳情 | |------|------| | 模型類型 | Llama 3.2 包含 1B 和 3B 規模的模型,以及量化版本 | | 訓練數據 | 公開數據源的多達 9 萬億個標記的數據,截止時間為 2023 年 12 月 | | 輸入模態 | 多語言文本 | | 輸出模態 | 多語言文本和代碼 | | 上下文長度 | 1B 模型為 128k(量化版本為 8k) | | GQA | 支持 | | 共享嵌入 | 支持 | | 標記計數 | 最多 9T 標記 | | 知識截止時間 | 2023 年 12 月 |
預期用途
- 預期用例:用於多語言商業和研究,指令微調的純文本模型適用於對話、知識檢索、總結、移動寫作助手等,預訓練模型可用於多種自然語言生成任務,量化模型適用於計算資源有限的設備。
- 超出範圍:違反適用法律法規(包括貿易合規法律)、違反可接受使用政策和 Llama 3.2 社區許可協議、使用模型未明確支持的語言。
硬件和軟件
- 訓練因素:使用自定義訓練庫、Meta 的自定義 GPU 集群和生產基礎設施進行預訓練,微調、量化、標註和評估也在生產基礎設施上進行。
- 訓練能源使用:在 H100 - 80GB(TDP 為 700W)類型的硬件上累計使用了 916k GPU 小時的計算資源。
- 訓練溫室氣體排放:估計基於位置的總溫室氣體排放量為 240 噸 CO2eq,由於 Meta 自 2020 年以來實現了全球運營的淨零溫室氣體排放並使用 100% 可再生能源,基於市場的總溫室氣體排放量為 0 噸 CO2eq。
模型 | 訓練時間(GPU 小時) | Logit 生成時間(GPU 小時) | 訓練功耗(W) | 基於位置的訓練溫室氣體排放(噸 CO2eq) | 基於市場的訓練溫室氣體排放(噸 CO2eq) |
---|---|---|---|---|---|
Llama 3.2 1B | 370k | - | 700 | 107 | 0 |
Llama 3.2 3B | 460k | - | 700 | 133 | 0 |
Llama 3.2 1B SpinQuant | 1.7 | 0 | 700 | 可忽略 | 0 |
Llama 3.2 3B SpinQuant | 2.4 | 0 | 700 | 可忽略 | 0 |
Llama 3.2 1B QLora | 1.3k | 0 | 700 | 0.381 | 0 |
Llama 3.2 3B QLora | 1.6k | 0 | 700 | 0.461 | 0 |
總計 | 833k | 86k | 240 | 0 |
訓練數據
Llama 3.2 在公開數據源的多達 9 萬億個標記的數據上進行預訓練,1B 和 3B 模型在預訓練階段融入了 Llama 3.1 8B 和 70B 模型的 logits。後訓練階段採用與 Llama 3.1 類似的方法,通過多輪對齊生成最終的聊天模型,每輪包括監督微調(SFT)、拒絕採樣(RS)和直接偏好優化(DPO)。
量化
量化方案
設計量化方案時考慮了 PyTorch 的 ExecuTorch 推理框架和 Arm CPU 後端,包括模型質量、預填充/解碼速度和內存佔用等指標。量化方案包括:
- 所有 Transformer 塊中的線性層權重量化為 4 位分組方案(組大小為 32),激活值採用 8 位每標記動態量化。
- 分類層權重量化為 8 位每通道,激活值採用 8 位每標記動態量化。
- 嵌入層採用 8 位每通道量化。
量化感知訓練和 LoRA
量化感知訓練(QAT)與低秩適應(LoRA)模型僅經過後訓練階段,使用與全精度模型相同的數據。初始化 QAT 時,利用監督微調(SFT)後獲得的 BF16 Llama 3.2 模型檢查點,並進行額外一輪的 SFT 訓練。然後凍結 QAT 模型的主幹,對 Transformer 塊內的所有層應用 LoRA 適配器進行另一輪 SFT 訓練,LoRA 適配器的權重和激活值保持在 BF16。最後,使用直接偏好優化(DPO)對生成的模型(主幹和 LoRA 適配器)進行微調。
SpinQuant
應用 SpinQuant 和生成式後訓練量化(GPTQ)。SpinQuant 旋轉矩陣微調時,使用 WikiText 2 數據集的 800 個序列長度為 2048 的樣本進行 100 次迭代優化;GPTQ 使用相同數據集的 128 個相同序列長度的樣本。
基準測試 - 英語文本
基礎預訓練模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.2 1B | Llama 3.2 3B | Llama 3.1 8B |
---|---|---|---|---|---|---|
通用 | MMLU | 5 | macro_avg/acc_char | 32.2 | 58 | 66.7 |
AGIEval English | 3 - 5 | average/acc_char | 23.3 | 39.2 | 47.8 | |
ARC - Challenge | 25 | acc_char | 32.8 | 69.1 | 79.7 | |
閱讀理解 | SQuAD | 1 | em | 49.2 | 67.7 | 77 |
QuAC (F1) | 1 | f1 | 37.9 | 42.9 | 44.9 | |
DROP (F1) | 3 | f1 | 28.0 | 45.2 | 59.5 | |
長上下文 | Needle in Haystack | 0 | em | 96.8 | 1 | 1 |
指令微調模型
| 能力 | 基準測試 | 樣本數 | 指標 | Llama 3.2 1B bf16 | Llama 3.2 1B Vanilla PTQ** | Llama 3.2 1B Spin Quant | Llama 3.2 1B QLoRA | Llama 3.2 3B bf16 | Llama 3.2 3B Vanilla PTQ** | Llama 3.2 3B Spin Quant | Llama 3.2 3B QLoRA | Llama 3.1 8B | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | 通用 | MMLU | 5 | macro_avg/acc | 49.3 | 43.3 | 47.3 | 49.0 | 63.4 | 60.5 | 62 | 62.4 | 69.4 | | 重寫 | Open - rewrite eval | 0 | micro_avg/rougeL | 41.6 | 39.2 | 40.9 | 41.2 | 40.1 | 40.3 | 40.8 | 40.7 | 40.9 | | 總結 | TLDR9+ (test) | 1 | rougeL | 16.8 | 14.9 | 16.7 | 16.8 | 19.0 | 19.1 | 19.2 | 19.1 | 17.2 | | 指令跟隨 | IFEval | 0 | Avg(Prompt/Instruction acc Loose/Strict) | 59.5 | 51.5 | 58.4 | 55.6 | 77.4 | 73.9 | 73.5 | 75.9 | 80.4 | | 數學 | GSM8K (CoT) | 8 | em_maj1@1 | 44.4 | 33.1 | 40.6 | 46.5 | 77.7 | 72.9 | 75.7 | 77.9 | 84.5 | | | MATH (CoT) | 0 | final_em | 30.6 | 20.5 | 25.3 | 31.0 | 48.0 | 44.2 | 45.3 | 49.2 | 51.9 | | 推理 | ARC - C | 0 | acc | 59.4 | 54.3 | 57 | 60.7 | 78.6 | 75.6 | 77.6 | 77.6 | 83.4 | | | GPQA | 0 | acc | 27.2 | 25.9 | 26.3 | 25.9 | 32.8 | 32.8 | 31.7 | 33.9 | 32.8 | | | Hellaswag | 0 | acc | 41.2 | 38.1 | 41.3 | 41.5 | 69.8 | 66.3 | 68 | 66.3 | 78.7 | | 工具使用 | BFCL V2 | 0 | acc | 25.7 | 14.3 | 15.9 | 23.7 | 67.0 | 53.4 | 60.1 | 63.5 | 67.1 | | | Nexus | 0 | macro_avg/acc | 13.5 | 5.2 | 9.6 | 12.5 | 34.3 | 32.4 | 31.5 | 30.1 | 38.5 | | 長上下文 | InfiniteBench/En.QA | 0 | longbook_qa/f1 | 20.3 | N/A | N/A | N/A | 19.8 | N/A | N/A | N/A | 27.3 | | | InfiniteBench/En.MC | 0 | longbook_choice/acc | 38.0 | N/A | N/A | N/A | 63.3 | N/A | N/A | N/A | 72.2 | | | NIH/Multi - needle | 0 | recall | 75.0 | N/A | N/A | N/A | 84.7 | N/A | N/A | N/A | 98.8 | | 多語言 | MGSM (CoT) | 0 | em | 24.5 | 13.7 | 18.2 | 24.4 | 58.2 | 48.9 | 54.3 | 56.8 | 68.9 |
注:**僅用於比較目的,模型未發佈。
多語言基準測試
類別 | 基準測試 | 語言 | Llama 3.2 1B | Llama 3.2 1B Vanilla PTQ** | Llama 3.2 1B Spin Quant | Llama 3.2 1B QLoRA | Llama 3.2 3B | Llama 3.2 3B Vanilla PTQ** | Llama 3.2 3B Spin Quant | Llama 3.2 3B QLoRA | Llama 3.1 8B |
---|---|---|---|---|---|---|---|---|---|---|---|
通用 | MMLU (5 - shot, macro_avg/acc) | 葡萄牙語 | 39.8 | 34.9 | 38.9 | 40.2 | 54.5 | 50.9 | 53.3 | 53.4 | 62.1 |
西班牙語 | 41.5 | 36.0 | 39.8 | 41.8 | 55.1 | 51.9 | 53.6 | 53.6 | 62.5 | ||
意大利語 | 39.8 | 34.9 | 38.1 | 40.6 | 53.8 | 49.9 | 52.1 | 51.7 | 61.6 | ||
德語 | 39.2 | 34.9 | 37.5 | 39.6 | 53.3 | 50.0 | 52.2 | 51.3 | 60.6 | ||
法語 | 40.5 | 34.8 | 39.2 | 40.8 | 54.6 | 51.2 | 53.3 | 53.3 | 62.3 | ||
印地語 | 33.5 | 30.0 | 32.1 | 34.0 | 43.3 | 40.4 | 42.0 | 42.1 | 50.9 | ||
泰語 | 34.7 | 31.2 | 32.4 | 34.9 | 44.5 | 41.3 | 44.0 | 42.2 | 50.3 |
注:**僅用於比較目的,模型未發佈。
推理時間
使用 ExecuTorch 框架作為推理引擎,以 ARM CPU 為後端,在 Android OnePlus 12 設備上進行評估,比較不同量化方法(SpinQuant 和 QAT + LoRA)與 BF16 基線的性能指標。
類別 | 解碼速度(標記/秒) | 首標記生成時間(秒) | 預填充速度(標記/秒) | 模型大小(PTE 文件大小,MB) | 內存大小(RSS,MB) |
---|---|---|---|---|---|
1B BF16(基線) | 19.2 | 1.0 | 60.3 | 2358 | 3185 |
1B SpinQuant | 50.2(2.6 倍) | 0.3(-76.9%) | 260.5(4.3 倍) | 1083(-54.1%) | 1921(-39.7%) |
1B QLoRA | 45.8(2.4 倍) | 0.3(-76.0%) | 252.0(4.2 倍) | 1127(-52.2%) | 2255(-29.2%) |
3B BF16(基線) | 7.6 | 3.0 | 21.2 | 6129 | 7419 |
3B SpinQuant | 19.7(2.6 倍) | 0.7(-76.4%) | 89.7(4.2 倍) | 2435(-60.3%) | 3726(-49.8%) |
3B QLoRA | 18.5(2.4 倍) | 0.7(-76.1%) | 88.8(4.2 倍) | 2529(-58.7%) | 4060(-45.3%) |
責任與安全
負責任的部署
Meta 採用三管齊下的策略管理信任和安全風險:
- 使開發者能夠為目標受眾和 Llama 支持的用例部署有用、安全和靈活的體驗。
- 保護開發者免受旨在利用 Llama 能力造成潛在危害的惡意用戶的攻擊。
- 為社區提供保護,防止模型被濫用。
Llama 3.2 Instruct
- 目標:為研究社區提供研究安全微調魯棒性的有價值資源,為開發者提供適用於各種應用的安全強大模型,減少部署安全 AI 系統的工作量。
- 微調數據:採用多方面的數據收集方法,結合供應商的人類生成數據和合成數據,使用基於大語言模型的分類器選擇高質量的提示和響應,提高數據質量控制。
- 拒絕和語氣:強調模型對良性提示的拒絕以及拒絕語氣,在安全數據策略中包括邊界和對抗性提示,並修改安全數據響應以遵循語氣指南。
Llama 3.2 系統
大語言模型(包括 Llama 3.2)不應單獨部署,而應作為整體 AI 系統的一部分,並根據需要添加額外的安全護欄。開發者在構建代理系統時應部署系統安全措施,這些措施對於實現有用性和安全性的正確對齊以及減輕系統固有的安全和風險至關重要。Meta 為社區提供 安全措施,如 Llama Guard、Prompt Guard 和 Code Shield,參考實現演示默認包含這些安全措施。
新功能和用例
Llama 3.2 1B 和 3B 模型預計將部署在高度受限的環境中,如移動設備。使用較小模型的 LLM 系統與更復雜、更大的系統具有不同的對齊配置文件和安全/有用性權衡。開發者應確保系統安全滿足用例要求,建議使用較輕的系統安全措施,如 Llama Guard 3 - 1B 或其移動優化版本。
評估
- 大規模評估:構建專用的對抗性評估數據集,評估由 Llama 模型和 Purple Llama 安全措施組成的系統,以過濾輸入提示和輸出響應。建議為用例構建專用評估數據集。
- 紅隊測試:定期進行紅隊測試,通過對抗性提示發現風險,並利用這些經驗改進基準和安全調優數據集。與關鍵風險領域的專家合作,確定紅隊的對抗性目標,紅隊成員包括網絡安全、對抗性機器學習、負責任 AI 和內容專家。
關鍵風險
除了上述安全工作外,還特別關注以下關鍵風險領域的測量和緩解:
- CBRNE(化學、生物、放射、核和爆炸武器):對 Llama 3.1 70B 和 405B 模型進行了提升測試,評估使用這些模型是否會增加惡意行為者使用此類武器進行攻擊的能力,該測試也適用於較小的 1B 和 3B 模型。
- 兒童安全:由專家團隊進行兒童安全風險評估,評估模型產生可能導致兒童安全風險的輸出的能力,並通過微調提供必要的風險緩解措施。利用專家紅隊測試擴展評估基準的覆蓋範圍。
- 網絡攻擊:對 Llama 3.1 405B 模型進行網絡攻擊提升研究,評估 LLM 在黑客任務中的能力,包括技能水平和速度。攻擊自動化研究評估 LLM 作為自主代理在網絡攻擊中的能力。由於 Llama 3.2 的 1B 和 3B 模型較小且能力較弱,認為對 405B 模型的測試也適用於 Llama 3.2 模型。
社區
- 行業合作:積極參與開放聯盟,如 AI 聯盟、AI 合作組織和 MLCommons,為安全標準化和透明度做出貢獻。鼓勵社區採用 MLCommons 概念驗證評估等分類法,促進安全和內容評估的合作和透明度。Purple Llama 工具開源供社區使用,並在包括雲服務提供商在內的生態系統合作伙伴中廣泛分發。
- 資助計劃:設立 Llama 影響資助 計劃,支持 Meta 的 Llama 模型在教育、氣候和開放創新三個領域的應用。
- 反饋機制:建立 輸出報告機制 和 漏洞賞金計劃,藉助社區力量不斷改進 Llama 技術。
倫理考慮和侷限性
- 價值觀:Llama 3.2 的核心價值觀是開放性、包容性和有用性,旨在為所有人服務,適用於廣泛的用例。尊重所有用戶的尊嚴和自主權,特別是自由思想和表達的價值觀。
- 測試:Llama 3.2 是新技術,測試無法覆蓋所有場景,模型可能產生不準確、有偏見或其他令人反感的響應。開發者在部署應用前應進行針對特定應用的安全測試和調優,可參考 負責任使用指南、信任和安全 解決方案和其他 資源 瞭解負責任的開發方法。
許可證
使用 Llama 3.2 需遵循 Llama 3.2 社區許可協議(自定義商業許可協議)。協議詳細規定了使用、複製、分發和修改 Llama 材料的條款和條件,包括許可證權利和再分發、額外商業條款、免責聲明、責任限制、知識產權、期限和終止、適用法律和管轄權等內容。同時,還提供了 Llama 3.2 可接受使用政策,明確了禁止使用的情況。
反饋
有關如何提供模型反饋或評論的說明,請參考 Llama 模型 README。如需瞭解更多關於生成參數和在應用中使用 Llama 3.2 的技術信息,請訪問 此處。
重要提示
⚠️ 重要提示
使用 Llama 3.2 必須遵守 Llama 3.2 社區許可協議 和 可接受使用政策,不得用於任何違反法律法規或有害的用途。
使用建議
💡 使用建議
在部署 Llama 3.2 模型的應用之前,開發者應進行針對特定應用的安全測試和調優,以確保模型的輸出符合預期且安全可靠。同時,建議關注模型的更新和社區反饋,及時瞭解模型的性能和安全情況。



