Llama 3.2-3B開源多語言對話模型 - 免費部署支持8種官方語言交流

首頁

Llama 3.2 3B Instruct SpinQuant INT4 EO8

由meta-llama開發

Llama 3.2是Meta推出的1B和3B參數規模的多語言預訓練和指令調優生成模型，針對多語言對話用例優化，支持8種官方語言。

大型語言模型

PyTorch

支持多種語言#多語言助手 #移動端優化 #128k長文本

下載量 30.02k

發布時間 : 10/23/2024

模型概述

Llama 3.2包含1B和3B大小的預訓練和指令調優生成模型，針對多語言對話用例進行了優化，包括代理檢索和摘要任務。

模型特點

多語言支持

官方支持8種語言，訓練語言範圍更廣，開發者可針對其他語言進行微調

高效推理

採用分組查詢注意力(GQA)提高推理可擴展性，優化移動設備部署

長上下文處理

支持128k上下文長度，適合處理長文檔和複雜對話

量化優化

提供SpinQuant和QLoRA量化方案，顯著減少模型大小和提高推理速度

模型能力

多語言文本生成

對話系統

知識檢索

文本摘要

提示重寫

多輪對話

長文本處理

使用案例

對話助手

多語言聊天機器人

構建支持多種語言的智能對話助手

在8種官方語言上表現優異

內容生成

多語言內容創作

生成多語言的營銷文案、社交媒體內容等

支持流暢的文本生成

知識檢索

企業知識庫問答

基於企業文檔構建問答系統

能夠準確檢索和總結信息

🚀 Llama 3.2 多語言大語言模型

Llama 3.2 是一系列多語言大語言模型，涵蓋 1B 和 3B 規模的預訓練及指令微調生成模型。它針對多語言對話場景進行了優化，在常見行業基準測試中表現出色，能為商業和研究領域提供強大支持。

🚀 快速開始

若你想使用 Llama 3.2 模型，需遵循 Llama 3.2 社區許可協議。在使用前，請仔細閱讀協議條款，並按要求提供相關信息進行申請。申請通過後，你可依據模型文檔和示例代碼開始使用。具體使用說明和反饋方式可參考以下鏈接：

模型反饋說明：Llama 模型 README
技術信息和使用方法：Llama 3.2 使用指南

✨ 主要特性

多語言支持：官方支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語，且在更多語言上進行了訓練。
優化架構：採用優化的 Transformer 架構，結合監督微調（SFT）和基於人類反饋的強化學習（RLHF），使模型更符合人類偏好。
廣泛應用：適用於商業和研究領域，如對話、知識檢索、總結、移動寫作助手等。
量化優化：提供量化模型，適用於計算資源有限的設備，同時保持較好的性能。

📦 安裝指南

文檔未提及具體安裝步驟，暫不提供相關內容。

💻 使用示例

文檔未提供代碼示例，暫不提供相關內容。

📚 詳細文檔

模型信息

模型開發者：Meta
模型架構：自迴歸語言模型，採用優化的 Transformer 架構，微調版本使用 SFT 和 RLHF 進行對齊。
訓練數據：使用公開數據源的多達 9 萬億個標記的數據進行預訓練，1B 和 3B 模型在預訓練階段融入了 Llama 3.1 8B 和 70B 模型的 logits。
模型參數： | 屬性 | 詳情 | |------|------| | 模型類型 | Llama 3.2 包含 1B 和 3B 規模的模型，以及量化版本 | | 訓練數據 | 公開數據源的多達 9 萬億個標記的數據，截止時間為 2023 年 12 月 | | 輸入模態 | 多語言文本 | | 輸出模態 | 多語言文本和代碼 | | 上下文長度 | 1B 模型為 128k（量化版本為 8k） | | GQA | 支持 | | 共享嵌入 | 支持 | | 標記計數 | 最多 9T 標記 | | 知識截止時間 | 2023 年 12 月 |

預期用途

預期用例：用於多語言商業和研究，指令微調的純文本模型適用於對話、知識檢索、總結、移動寫作助手等，預訓練模型可用於多種自然語言生成任務，量化模型適用於計算資源有限的設備。
超出範圍：違反適用法律法規（包括貿易合規法律）、違反可接受使用政策和 Llama 3.2 社區許可協議、使用模型未明確支持的語言。

硬件和軟件

訓練因素：使用自定義訓練庫、Meta 的自定義 GPU 集群和生產基礎設施進行預訓練，微調、量化、標註和評估也在生產基礎設施上進行。
訓練能源使用：在 H100 - 80GB（TDP 為 700W）類型的硬件上累計使用了 916k GPU 小時的計算資源。
訓練溫室氣體排放：估計基於位置的總溫室氣體排放量為 240 噸 CO2eq，由於 Meta 自 2020 年以來實現了全球運營的淨零溫室氣體排放並使用 100% 可再生能源，基於市場的總溫室氣體排放量為 0 噸 CO2eq。

模型	訓練時間（GPU 小時）	Logit 生成時間（GPU 小時）	訓練功耗（W）	基於位置的訓練溫室氣體排放（噸 CO2eq）
Llama 3.2 1B	370k	-	700	107
Llama 3.2 3B	460k	-	700	133
Llama 3.2 1B SpinQuant	1.7	0	700	可忽略
Llama 3.2 3B SpinQuant	2.4	0	700	可忽略
Llama 3.2 1B QLora	1.3k	0	700	0.381
Llama 3.2 3B QLora	1.6k	0	700	0.461
總計	833k	86k		240

訓練數據

Llama 3.2 在公開數據源的多達 9 萬億個標記的數據上進行預訓練，1B 和 3B 模型在預訓練階段融入了 Llama 3.1 8B 和 70B 模型的 logits。後訓練階段採用與 Llama 3.1 類似的方法，通過多輪對齊生成最終的聊天模型，每輪包括監督微調（SFT）、拒絕採樣（RS）和直接偏好優化（DPO）。

量化

量化方案

設計量化方案時考慮了 PyTorch 的 ExecuTorch 推理框架和 Arm CPU 後端，包括模型質量、預填充/解碼速度和內存佔用等指標。量化方案包括：

所有 Transformer 塊中的線性層權重量化為 4 位分組方案（組大小為 32），激活值採用 8 位每標記動態量化。
分類層權重量化為 8 位每通道，激活值採用 8 位每標記動態量化。
嵌入層採用 8 位每通道量化。

量化感知訓練和 LoRA

量化感知訓練（QAT）與低秩適應（LoRA）模型僅經過後訓練階段，使用與全精度模型相同的數據。初始化 QAT 時，利用監督微調（SFT）後獲得的 BF16 Llama 3.2 模型檢查點，並進行額外一輪的 SFT 訓練。然後凍結 QAT 模型的主幹，對 Transformer 塊內的所有層應用 LoRA 適配器進行另一輪 SFT 訓練，LoRA 適配器的權重和激活值保持在 BF16。最後，使用直接偏好優化（DPO）對生成的模型（主幹和 LoRA 適配器）進行微調。

SpinQuant

應用 SpinQuant 和生成式後訓練量化（GPTQ）。SpinQuant 旋轉矩陣微調時，使用 WikiText 2 數據集的 800 個序列長度為 2048 的樣本進行 100 次迭代優化；GPTQ 使用相同數據集的 128 個相同序列長度的樣本。

基準測試 - 英語文本

基礎預訓練模型

類別	基準測試	樣本數	指標	Llama 3.2 1B	Llama 3.2 3B	Llama 3.1 8B
通用	MMLU	5	macro_avg/acc_char	32.2	58	66.7
	AGIEval English	3 - 5	average/acc_char	23.3	39.2	47.8
	ARC - Challenge	25	acc_char	32.8	69.1	79.7
閱讀理解	SQuAD	1	em	49.2	67.7	77
	QuAC (F1)	1	f1	37.9	42.9	44.9
	DROP (F1)	3	f1	28.0	45.2	59.5
長上下文	Needle in Haystack	0	em	96.8	1	1

指令微調模型

| 能力 | 基準測試 | 樣本數 | 指標 | Llama 3.2 1B bf16 | Llama 3.2 1B Vanilla PTQ** | Llama 3.2 1B Spin Quant | Llama 3.2 1B QLoRA | Llama 3.2 3B bf16 | Llama 3.2 3B Vanilla PTQ** | Llama 3.2 3B Spin Quant | Llama 3.2 3B QLoRA | Llama 3.1 8B | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | 通用 | MMLU | 5 | macro_avg/acc | 49.3 | 43.3 | 47.3 | 49.0 | 63.4 | 60.5 | 62 | 62.4 | 69.4 | | 重寫 | Open - rewrite eval | 0 | micro_avg/rougeL | 41.6 | 39.2 | 40.9 | 41.2 | 40.1 | 40.3 | 40.8 | 40.7 | 40.9 | | 總結 | TLDR9+ (test) | 1 | rougeL | 16.8 | 14.9 | 16.7 | 16.8 | 19.0 | 19.1 | 19.2 | 19.1 | 17.2 | | 指令跟隨 | IFEval | 0 | Avg(Prompt/Instruction acc Loose/Strict) | 59.5 | 51.5 | 58.4 | 55.6 | 77.4 | 73.9 | 73.5 | 75.9 | 80.4 | | 數學 | GSM8K (CoT) | 8 | em_maj1@1 | 44.4 | 33.1 | 40.6 | 46.5 | 77.7 | 72.9 | 75.7 | 77.9 | 84.5 | | | MATH (CoT) | 0 | final_em | 30.6 | 20.5 | 25.3 | 31.0 | 48.0 | 44.2 | 45.3 | 49.2 | 51.9 | | 推理 | ARC - C | 0 | acc | 59.4 | 54.3 | 57 | 60.7 | 78.6 | 75.6 | 77.6 | 77.6 | 83.4 | | | GPQA | 0 | acc | 27.2 | 25.9 | 26.3 | 25.9 | 32.8 | 32.8 | 31.7 | 33.9 | 32.8 | | | Hellaswag | 0 | acc | 41.2 | 38.1 | 41.3 | 41.5 | 69.8 | 66.3 | 68 | 66.3 | 78.7 | | 工具使用 | BFCL V2 | 0 | acc | 25.7 | 14.3 | 15.9 | 23.7 | 67.0 | 53.4 | 60.1 | 63.5 | 67.1 | | | Nexus | 0 | macro_avg/acc | 13.5 | 5.2 | 9.6 | 12.5 | 34.3 | 32.4 | 31.5 | 30.1 | 38.5 | | 長上下文 | InfiniteBench/En.QA | 0 | longbook_qa/f1 | 20.3 | N/A | N/A | N/A | 19.8 | N/A | N/A | N/A | 27.3 | | | InfiniteBench/En.MC | 0 | longbook_choice/acc | 38.0 | N/A | N/A | N/A | 63.3 | N/A | N/A | N/A | 72.2 | | | NIH/Multi - needle | 0 | recall | 75.0 | N/A | N/A | N/A | 84.7 | N/A | N/A | N/A | 98.8 | | 多語言 | MGSM (CoT) | 0 | em | 24.5 | 13.7 | 18.2 | 24.4 | 58.2 | 48.9 | 54.3 | 56.8 | 68.9 |

注：**僅用於比較目的，模型未發佈。

多語言基準測試

類別	基準測試	語言	Llama 3.2 1B	Llama 3.2 1B Vanilla PTQ**	Llama 3.2 1B Spin Quant	Llama 3.2 1B QLoRA	Llama 3.2 3B	Llama 3.2 3B Vanilla PTQ**	Llama 3.2 3B Spin Quant	Llama 3.2 3B QLoRA	Llama 3.1 8B
通用	MMLU (5 - shot, macro_avg/acc)	葡萄牙語	39.8	34.9	38.9	40.2	54.5	50.9	53.3	53.4	62.1
		西班牙語	41.5	36.0	39.8	41.8	55.1	51.9	53.6	53.6	62.5
		意大利語	39.8	34.9	38.1	40.6	53.8	49.9	52.1	51.7	61.6
		德語	39.2	34.9	37.5	39.6	53.3	50.0	52.2	51.3	60.6
		法語	40.5	34.8	39.2	40.8	54.6	51.2	53.3	53.3	62.3
		印地語	33.5	30.0	32.1	34.0	43.3	40.4	42.0	42.1	50.9
		泰語	34.7	31.2	32.4	34.9	44.5	41.3	44.0	42.2	50.3

注：**僅用於比較目的，模型未發佈。

推理時間

使用 ExecuTorch 框架作為推理引擎，以 ARM CPU 為後端，在 Android OnePlus 12 設備上進行評估，比較不同量化方法（SpinQuant 和 QAT + LoRA）與 BF16 基線的性能指標。

類別	解碼速度（標記/秒）	首標記生成時間（秒）	預填充速度（標記/秒）	模型大小（PTE 文件大小，MB）	內存大小（RSS，MB）
1B BF16（基線）	19.2	1.0	60.3	2358	3185
1B SpinQuant	50.2（2.6 倍）	0.3（-76.9%）	260.5（4.3 倍）	1083（-54.1%）	1921（-39.7%）
1B QLoRA	45.8（2.4 倍）	0.3（-76.0%）	252.0（4.2 倍）	1127（-52.2%）	2255（-29.2%）
3B BF16（基線）	7.6	3.0	21.2	6129	7419
3B SpinQuant	19.7（2.6 倍）	0.7（-76.4%）	89.7（4.2 倍）	2435（-60.3%）	3726（-49.8%）
3B QLoRA	18.5（2.4 倍）	0.7（-76.1%）	88.8（4.2 倍）	2529（-58.7%）	4060（-45.3%）

責任與安全

負責任的部署

Meta 採用三管齊下的策略管理信任和安全風險：

使開發者能夠為目標受眾和 Llama 支持的用例部署有用、安全和靈活的體驗。
保護開發者免受旨在利用 Llama 能力造成潛在危害的惡意用戶的攻擊。
為社區提供保護，防止模型被濫用。

Llama 3.2 Instruct

目標：為研究社區提供研究安全微調魯棒性的有價值資源，為開發者提供適用於各種應用的安全強大模型，減少部署安全 AI 系統的工作量。
微調數據：採用多方面的數據收集方法，結合供應商的人類生成數據和合成數據，使用基於大語言模型的分類器選擇高質量的提示和響應，提高數據質量控制。
拒絕和語氣：強調模型對良性提示的拒絕以及拒絕語氣，在安全數據策略中包括邊界和對抗性提示，並修改安全數據響應以遵循語氣指南。

Llama 3.2 系統

大語言模型（包括 Llama 3.2）不應單獨部署，而應作為整體 AI 系統的一部分，並根據需要添加額外的安全護欄。開發者在構建代理系統時應部署系統安全措施，這些措施對於實現有用性和安全性的正確對齊以及減輕系統固有的安全和風險至關重要。Meta 為社區提供安全措施，如 Llama Guard、Prompt Guard 和 Code Shield，參考實現演示默認包含這些安全措施。

新功能和用例

Llama 3.2 1B 和 3B 模型預計將部署在高度受限的環境中，如移動設備。使用較小模型的 LLM 系統與更復雜、更大的系統具有不同的對齊配置文件和安全/有用性權衡。開發者應確保系統安全滿足用例要求，建議使用較輕的系統安全措施，如 Llama Guard 3 - 1B 或其移動優化版本。

評估

大規模評估：構建專用的對抗性評估數據集，評估由 Llama 模型和 Purple Llama 安全措施組成的系統，以過濾輸入提示和輸出響應。建議為用例構建專用評估數據集。
紅隊測試：定期進行紅隊測試，通過對抗性提示發現風險，並利用這些經驗改進基準和安全調優數據集。與關鍵風險領域的專家合作，確定紅隊的對抗性目標，紅隊成員包括網絡安全、對抗性機器學習、負責任 AI 和內容專家。

關鍵風險

除了上述安全工作外，還特別關注以下關鍵風險領域的測量和緩解：

CBRNE（化學、生物、放射、核和爆炸武器）：對 Llama 3.1 70B 和 405B 模型進行了提升測試，評估使用這些模型是否會增加惡意行為者使用此類武器進行攻擊的能力，該測試也適用於較小的 1B 和 3B 模型。
兒童安全：由專家團隊進行兒童安全風險評估，評估模型產生可能導致兒童安全風險的輸出的能力，並通過微調提供必要的風險緩解措施。利用專家紅隊測試擴展評估基準的覆蓋範圍。
網絡攻擊：對 Llama 3.1 405B 模型進行網絡攻擊提升研究，評估 LLM 在黑客任務中的能力，包括技能水平和速度。攻擊自動化研究評估 LLM 作為自主代理在網絡攻擊中的能力。由於 Llama 3.2 的 1B 和 3B 模型較小且能力較弱，認為對 405B 模型的測試也適用於 Llama 3.2 模型。

社區

行業合作：積極參與開放聯盟，如 AI 聯盟、AI 合作組織和 MLCommons，為安全標準化和透明度做出貢獻。鼓勵社區採用 MLCommons 概念驗證評估等分類法，促進安全和內容評估的合作和透明度。Purple Llama 工具開源供社區使用，並在包括雲服務提供商在內的生態系統合作伙伴中廣泛分發。
資助計劃：設立 Llama 影響資助計劃，支持 Meta 的 Llama 模型在教育、氣候和開放創新三個領域的應用。
反饋機制：建立輸出報告機制和漏洞賞金計劃，藉助社區力量不斷改進 Llama 技術。

倫理考慮和侷限性

價值觀：Llama 3.2 的核心價值觀是開放性、包容性和有用性，旨在為所有人服務，適用於廣泛的用例。尊重所有用戶的尊嚴和自主權，特別是自由思想和表達的價值觀。
測試：Llama 3.2 是新技術，測試無法覆蓋所有場景，模型可能產生不準確、有偏見或其他令人反感的響應。開發者在部署應用前應進行針對特定應用的安全測試和調優，可參考負責任使用指南、信任和安全解決方案和其他資源瞭解負責任的開發方法。

許可證

使用 Llama 3.2 需遵循 Llama 3.2 社區許可協議（自定義商業許可協議）。協議詳細規定了使用、複製、分發和修改 Llama 材料的條款和條件，包括許可證權利和再分發、額外商業條款、免責聲明、責任限制、知識產權、期限和終止、適用法律和管轄權等內容。同時，還提供了 Llama 3.2 可接受使用政策，明確了禁止使用的情況。