Llama 3.2 1B Instruct AWQ
Llama 3.2系列是多語言大語言模型,包含1B和3B參數規模,針對多語言對話用例優化,包括代理檢索和摘要任務。
下載量 429
發布時間 : 9/25/2024
模型概述
Llama 3.2是預訓練和指令調優的生成模型,支持多種語言,適用於商業和研究用途,特別適合類似助手的聊天和代理應用。
模型特點
多語言支持
官方支持8種語言,訓練語言範圍更廣,開發者可針對其他語言微調。
指令調優優化
針對多語言對話用例優化,包括代理檢索和摘要任務。
高性能推理
使用分組查詢注意力(GQA)提高推理可擴展性。
安全對齊
通過監督微調(SFT)和人類反饋強化學習(RLHF)與人類偏好對齊,提高幫助性和安全性。
模型能力
多語言文本生成
知識檢索
摘要生成
對話助手
查詢重寫
提示重寫
使用案例
聊天應用
多語言聊天機器人
構建支持多種語言的對話助手
在常見行業基準測試中優於許多開源和閉源聊天模型
內容生成
移動AI寫作助手
幫助用戶生成和優化文本內容
信息處理
知識檢索
從大量文本中提取相關信息
文本摘要
生成文本的簡潔摘要
🚀 Meta Llama 3.2 多語言大語言模型
Meta Llama 3.2 是一系列多語言大語言模型(LLMs),有 1B 和 3B 兩種規模的預訓練和指令調優生成模型。這些模型針對多語言對話場景進行了優化,在常見行業基準測試中表現出色,能用於多種商業和研究場景。
🚀 快速開始
使用 transformers 庫
從 transformers >= 4.43.0
版本開始,你可以使用 Transformers 的 pipeline
抽象或藉助 Auto
類的 generate()
函數進行對話推理。
確保通過 pip install --upgrade transformers
更新你的 transformers 庫。
import torch
from transformers import pipeline
model_id = "meta-llama/Llama-3.2-1B-Instruct"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
outputs = pipe(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
注意:你還可以在 huggingface-llama-recipes
找到關於如何在本地使用模型、使用 torch.compile()
、輔助生成、量化等方面的詳細指南。
使用 llama
代碼庫
請遵循 倉庫 中的說明。
要下載原始檢查點,請參考以下使用 huggingface-cli
的示例命令:
huggingface-cli download meta-llama/Llama-3.2-1B-Instruct --include "original/*" --local-dir Llama-3.2-1B-Instruct
✨ 主要特性
- 多語言支持:官方支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語,並且在更多語言上進行了訓練。
- 高性能表現:在常見行業基準測試中,優於許多現有的開源和閉源聊天模型。
- 廣泛用途:適用於商業和研究領域,如知識檢索、摘要生成、移動 AI 寫作助手等。
📦 安裝指南
確保通過 pip install --upgrade transformers
更新你的 transformers 庫,以使用 transformers
庫運行模型。
💻 使用示例
基礎用法
import torch
from transformers import pipeline
model_id = "meta-llama/Llama-3.2-1B-Instruct"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
outputs = pipe(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型開發者 | Meta |
模型架構 | Llama 3.2 是一種自迴歸語言模型,採用優化的 Transformer 架構。調優版本使用監督微調(SFT)和基於人類反饋的強化學習(RLHF)來符合人類對有用性和安全性的偏好。 |
訓練數據 | Llama 3.2 在來自公開來源的多達 9 萬億個標記的數據上進行預訓練。對於 1B 和 3B 的 Llama 3.2 模型,在模型開發的預訓練階段融入了 Llama 3.1 8B 和 70B 模型的邏輯。 |
支持語言 | 官方支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。開發者可以在遵守 Llama 3.2 社區許可證和可接受使用政策的前提下,對模型進行微調以支持更多語言。 |
模型發佈日期 | 2024 年 9 月 25 日 |
狀態 | 這是一個基於離線數據集訓練的靜態模型。未來可能會發布改進模型能力和安全性的版本。 |
許可證 | 使用 Llama 3.2 受 Llama 3.2 社區許可證(自定義商業許可協議)的約束。 |
反饋 | 有關模型的問題或評論可參考模型 README。有關生成參數和如何在應用中使用 Llama 3.2 的更多技術信息,請訪問 此處。 |
預期用途
- 預期用例:Llama 3.2 適用於多種語言的商業和研究用途。指令調優的純文本模型適用於類似助手的聊天和代理應用,如知識檢索和摘要生成、移動 AI 寫作助手以及查詢和提示重寫。預訓練模型可用於各種自然語言生成任務。
- 超出範圍:以任何違反適用法律法規(包括貿易合規法律)的方式使用;以可接受使用政策和 Llama 3.2 社區許可證禁止的任何其他方式使用;在本模型卡片中未明確支持的語言中使用。
硬件和軟件
- 訓練因素:使用自定義訓練庫、Meta 定製的 GPU 集群和生產基礎設施進行預訓練。微調、註釋和評估也在生產基礎設施上進行。
- 訓練能源使用:訓練在 H100 - 80GB(TDP 為 700W)類型的硬件上累計使用了 916k GPU 小時的計算資源。
- 訓練溫室氣體排放:估計基於位置的總溫室氣體排放量為 240 噸 CO2eq。自 2020 年以來,Meta 在全球運營中保持淨零溫室氣體排放,並以可再生能源匹配其 100% 的電力使用,因此基於市場的總溫室氣體排放量為 0 噸 CO2eq。
訓練數據
Llama 3.2 在來自公開來源的多達 9 萬億個標記的數據上進行預訓練。對於 1B 和 3B 的 Llama 3.2 模型,在模型開發的預訓練階段融入了 Llama 3.1 8B 和 70B 模型的邏輯。預訓練數據的截止日期為 2023 年 12 月。
基準測試 - 英語文本
基礎預訓練模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.2 1B | Llama 3.2 3B | Llama 3.1 8B |
---|---|---|---|---|---|---|
通用 | MMLU | 5 | macro_avg/acc_char | 32.2 | 58 | 66.7 |
AGIEval 英語 | 3 - 5 | average/acc_char | 23.3 | 39.2 | 47.8 | |
ARC - Challenge | 25 | acc_char | 32.8 | 69.1 | 79.7 | |
閱讀理解 | SQuAD | 1 | em | 49.2 | 67.7 | 77 |
QuAC (F1) | 1 | f1 | 37.9 | 42.9 | 44.9 | |
DROP (F1) | 3 | f1 | 28.0 | 45.2 | 59.5 | |
長上下文 | Needle in Haystack | 0 | em | 96.8 | 1 | 1 |
指令調優模型
能力 | 基準測試 | 樣本數 | 指標 | Llama 3.2 1B | Llama 3.2 3B | Llama 3.1 8B |
---|---|---|---|---|---|---|
通用 | MMLU | 5 | macro_avg/acc | 49.3 | 63.4 | 69.4 |
重寫 | Open - rewrite eval | 0 | micro_avg/rougeL | 41.6 | 40.1 | 40.9 |
摘要生成 | TLDR9+ (測試) | 1 | rougeL | 16.8 | 19.0 | 17.2 |
指令遵循 | IFEval | 0 | avg(prompt/instruction acc loose/strict) | 59.5 | 77.4 | 80.4 |
數學 | GSM8K (CoT) | 8 | em_maj1@1 | 44.4 | 77.7 | 84.5 |
MATH (CoT) | 0 | final_em | 30.6 | 47.3 | 51.9 | |
推理 | ARC - C | 0 | acc | 59.4 | 78.6 | 83.4 |
GPQA | 0 | acc | 27.2 | 32.8 | 32.8 | |
Hellaswag | 0 | acc | 41.2 | 69.8 | 78.7 | |
工具使用 | BFCL V2 | 0 | acc | 25.7 | 67.0 | 70.9 |
Nexus | 0 | macro_avg/acc | 13.5 | 34.3 | 38.5 | |
長上下文 | InfiniteBench/En.QA | 0 | longbook_qa/f1 | 20.3 | 19.8 | 27.3 |
InfiniteBench/En.MC | 0 | longbook_choice/acc | 38.0 | 63.3 | 72.2 | |
NIH/Multi - needle | 0 | recall | 75.0 | 84.7 | 98.8 | |
多語言 | MGSM (CoT) | 0 | em | 24.5 | 58.2 | 68.9 |
多語言基準測試
類別 | 基準測試 | 語言 | Llama 3.2 1B | Llama 3.2 3B | Llama 3.1 8B |
---|---|---|---|---|---|
通用 | MMLU (5 樣本, macro_avg/acc) | 葡萄牙語 | 39.82 | 54.48 | 62.12 |
西班牙語 | 41.5 | 55.1 | 62.5 | ||
意大利語 | 39.8 | 53.8 | 61.6 | ||
德語 | 39.2 | 53.3 | 60.6 | ||
法語 | 40.5 | 54.6 | 62.3 | ||
印地語 | 33.5 | 43.3 | 50.9 | ||
泰語 | 34.7 | 44.5 | 50.3 |
責任與安全
負責任的部署
- 方法:Llama 是一種基礎技術,旨在用於各種用例。Meta 的 Llama 模型負責任部署的示例可在 社區故事網頁 找到。我們的方法是構建最有用的模型,通過使模型安全符合通用用例並解決一系列標準危害,讓世界從技術力量中受益。開發者可根據自己的用例定製安全性,定義自己的政策,並在其 Llama 系統中部署必要的保障措施。Llama 3.2 是按照我們 負責任使用指南 中概述的最佳實踐開發的。
- Llama 3.2 指令調優:主要目標是為研究社區提供研究安全微調魯棒性的有價值資源,併為開發者提供一個隨時可用、安全且強大的模型,以減少部署安全 AI 系統的工作量。實施了與 Llama 3 相同的安全緩解措施,更多信息可參考 Llama 3 論文。
- Llama 3.2 系統:大型語言模型(包括 Llama 3.2)不應單獨部署,而應作為整體 AI 系統的一部分,並根據需要添加額外的安全護欄。開發者在構建代理系統時應部署系統保障措施。保障措施對於實現正確的有用性 - 安全性平衡以及減輕系統固有的安全和風險至關重要。作為負責任發佈方法的一部分,我們為社區提供 保障措施,開發者應與 Llama 模型或其他大語言模型一起部署,包括 Llama Guard、Prompt Guard 和 Code Shield。我們所有的 參考實現 演示默認包含這些保障措施,以便開發者可以直接受益於系統級安全。
新功能和用例
- 技術進步:Llama 版本通常會引入新功能,除了適用於所有生成式 AI 用例的最佳實踐外,還需要特定的考慮。對於 Llama 3.2 也支持的先前版本功能,請參考 Llama 3.1 模型卡片,因為這裡適用相同的考慮因素。
- 受限環境:Llama 3.2 1B 和 3B 模型預計將部署在高度受限的環境中,如移動設備。使用較小模型的大語言模型系統將具有與更復雜、更大系統不同的對齊配置文件和安全/有用性權衡。開發者應確保其系統的安全性符合其用例的要求。我們建議為此類用例使用更輕量級的系統保障措施,如 Llama Guard 3 - 1B 或其針對移動設備優化的版本。
評估
- 規模化評估:構建了專門的對抗性評估數據集,並評估了由 Llama 模型和 Purple Llama 保障措施組成的系統,以過濾輸入提示和輸出響應。在上下文中評估應用程序很重要,建議為你的用例構建專門的評估數據集。
- 紅隊測試:定期進行紅隊測試,目標是通過對抗性提示發現風險,並利用這些經驗改進我們的基準測試和安全調優數據集。早期與關鍵風險領域的主題專家合作,瞭解這些現實世界危害的性質以及此類模型可能對社會造成的意外危害。根據這些對話,為紅隊設定了一組對抗性目標,如提取有害信息或重新編程模型以潛在地造成危害。紅隊由網絡安全、對抗性機器學習、負責任 AI 和內容完整性專家以及具有特定地理市場內容完整性問題背景的多語言內容專家組成。
關鍵風險
- CBRNE(化學、生物、放射、核和爆炸武器):Llama 3.2 1B 和 3B 模型是 Llama 3.1 的較小且能力較弱的衍生模型。對於 Llama 3.1 70B 和 405B,為評估與化學和生物武器擴散相關的風險,進行了提升測試,以評估使用 Llama 3.1 模型是否會顯著增加惡意行為者計劃或實施使用此類武器的攻擊的能力,並確定此類測試也適用於較小的 1B 和 3B 模型。
- 兒童安全:使用專家團隊進行兒童安全風險評估,以評估模型產生可能導致兒童安全風險的輸出的能力,並通過微調提供必要和適當的風險緩解措施。利用這些專家紅隊測試擴展了我們在 Llama 3 模型開發過程中評估基準的覆蓋範圍。對於 Llama 3,使用基於目標的方法進行了新的深入測試,以評估模型在多個攻擊向量上的風險,包括 Llama 3 訓練的額外語言。還與內容專家合作進行紅隊測試,評估潛在違規內容,同時考慮特定市場的細微差別或經驗。
- 網絡攻擊:對於 Llama 3.1 405B,網絡攻擊提升研究調查了大語言模型是否能在技能水平和速度方面增強人類在黑客任務中的能力。攻擊自動化研究專注於評估大語言模型作為自主代理在網絡攻擊行動中的能力,特別是在勒索軟件攻擊的背景下。此評估與之前將大語言模型視為交互式助手的研究不同。主要目標是評估這些模型是否能在沒有人類干預的情況下有效地作為獨立代理執行復雜的網絡攻擊。由於 Llama 3.2 的 1B 和 3B 模型比 Llama 3.1 405B 更小且能力更弱,我們大致認為對 405B 模型進行的測試也適用於 Llama 3.2 模型。
社區
- 行業合作:生成式 AI 安全需要專業知識和工具,我們相信開放社區的力量可以加速其發展。我們是開放聯盟(包括 AI 聯盟、AI 合作組織和 MLCommons)的積極成員,積極為安全標準化和透明度做出貢獻。鼓勵社區採用 MLCommons 概念驗證評估等分類法,以促進安全和內容評估的合作和透明度。我們的 Purple Llama 工具已開源供社區使用,並廣泛分發到包括雲服務提供商在內的生態系統合作伙伴。鼓勵社區為我們的 Github 倉庫 做出貢獻。
- 資助:設立了 Llama 影響資助 計劃,以識別和支持 Meta 的 Llama 模型在教育、氣候和開放創新三個類別中對社會有益的最有吸引力的應用。數百份申請中的 20 名決賽選手可在 此處 找到。
- 報告:建立了一套資源,包括 輸出報告機制 和 漏洞賞金計劃,以在社區的幫助下不斷改進 Llama 技術。
倫理考慮和侷限性
- 價值觀:Llama 3.2 的核心價值觀是開放性、包容性和有用性。旨在為所有人服務,並適用於廣泛的用例。因此,它設計為對具有不同背景、經驗和觀點的人都可訪問。Llama 3.2 以用戶的實際情況和需求為出發點,不插入不必要的判斷或規範性,同時認識到即使在某些情況下可能有問題的內容在其他情況下也可能有價值。它尊重所有用戶的尊嚴和自主權,特別是在推動創新和進步的自由思想和表達價值觀方面。
- 測試:Llama 3.2 是一項新技術,與任何新技術一樣,使用它存在風險。到目前為止進行的測試並未涵蓋,也不可能涵蓋所有場景。因此,與所有大語言模型一樣,Llama 3.2 的潛在輸出無法提前預測,模型在某些情況下可能會對用戶提示產生不準確、有偏見或其他令人反感的響應。因此,在部署 Llama 3.2 模型的任何應用之前,開發者應針對其特定應用進行安全測試和調優。請參考可用資源,包括我們的 負責任使用指南、信任與安全 解決方案和其他 資源,以瞭解更多關於負責任開發的信息。
📄 許可證
使用 Llama 3.2 受 Llama 3.2 社區許可證(自定義商業許可協議)的約束。
⚠️ 重要提示
請確保你的使用符合 Llama 3.2 社區許可證和可接受使用政策。
💡 使用建議
在部署 Llama 3.2 模型的應用之前,開發者應針對特定應用進行安全測試和調優。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98