模型概述
模型特點
模型能力
使用案例
🚀 Llama 3.1 8B Instruct - GGUF
本項目提供了Meta的Llama 3.1 8B Instruct模型的GGUF格式文件,助力多語言對話場景下的高效應用,在行業基準測試中表現出色。
🚀 快速開始
本倉庫包含兩個版本的Meta-Llama-3.1-8B-Instruct
,分別適用於transformers
和原始的llama
代碼庫。
使用transformers
從transformers >= 4.43.0
版本開始,你可以使用Transformers的pipeline
抽象或藉助Auto
類和generate()
函數進行對話推理。
請確保通過以下命令更新你的transformers
安裝:
pip install --upgrade transformers
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
注意:你還可以在huggingface-llama-recipes
找到有關如何在本地使用該模型、使用torch.compile()
、輔助生成、量化等詳細指南。
使用transformers進行工具調用
LLaMA-3.1支持多種工具調用格式。你可以在這裡查看完整的提示格式化指南。
在Transformers中,也可以通過聊天模板支持工具調用。以下是一個簡單工具調用的快速示例:
# 首先,定義一個工具
def get_current_temperature(location: str) -> float:
"""
Get the current temperature at a location.
Args:
location: The location to get the temperature for, in the format "City, Country"
Returns:
The current temperature at the specified location in the specified units, as a float.
"""
return 22. # A real function should probably actually get the temperature!
# 接下來,創建一個聊天並應用聊天模板
messages = [
{"role": "system", "content": "You are a bot that responds to weather queries."},
{"role": "user", "content": "Hey, what's the temperature in Paris right now?"}
]
inputs = tokenizer.apply_chat_template(messages, tools=[get_current_temperature], add_generation_prompt=True)
然後,你可以像往常一樣從這個輸入生成文本。如果模型生成了一個工具調用,你應該將其添加到聊天中,如下所示:
tool_call = {"name": "get_current_temperature", "arguments": {"location": "Paris, France"}}
messages.append({"role": "assistant", "tool_calls": [{"type": "function", "function": tool_call}]})
然後調用工具並將結果以tool
角色添加到聊天中,如下所示:
messages.append({"role": "tool", "name": "get_current_temperature", "content": "22.0"})
之後,你可以再次調用generate()
讓模型在聊天中使用工具調用的結果。請注意,這只是對工具調用的簡要介紹,更多信息請參閱LLaMA提示格式文檔和Transformers的工具使用文檔。
使用llama
請遵循倉庫中的說明。
要下載原始檢查點,請參考以下使用huggingface-cli
的示例命令:
huggingface-cli download meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir Meta-Llama-3.1-8B-Instruct
✨ 主要特性
- 多語言支持:支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語等多種語言。
- 優化架構:採用優化的Transformer架構,經過監督微調(SFT)和基於人類反饋的強化學習(RLHF),以符合人類對有用性和安全性的偏好。
- 長上下文窗口:支持128k的上下文長度。
- 工具調用能力:支持多種工具調用格式,方便開發者集成第三方工具。
📦 安裝指南
使用transformers
確保通過以下命令更新你的transformers
安裝:
pip install --upgrade transformers
使用llama
要下載原始檢查點,請參考以下使用huggingface-cli
的示例命令:
huggingface-cli download meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir Meta-Llama-3.1-8B-Instruct
📚 詳細文檔
模型信息
Meta Llama 3.1系列多語言大語言模型(LLMs)是一組預訓練和指令微調的生成模型,有8B、70B和405B三種規模(文本輸入/文本輸出)。Llama 3.1指令微調的純文本模型(8B、70B、405B)針對多語言對話用例進行了優化,在常見行業基準測試中優於許多現有的開源和閉源聊天模型。
屬性 | 詳情 |
---|---|
模型開發者 | Meta |
模型架構 | Llama 3.1是一種自迴歸語言模型,使用優化的Transformer架構。微調版本使用監督微調(SFT)和基於人類反饋的強化學習(RLHF)來符合人類對有用性和安全性的偏好。 |
訓練數據 | 新的公開在線數據組合。 |
參數規模 | 8B、70B、405B |
輸入模態 | 多語言文本 |
輸出模態 | 多語言文本和代碼 |
上下文長度 | 128k |
GQA | 是 |
令牌數量 | 15T+ |
知識截止日期 | 2023年12月 |
支持語言 | 英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語 |
模型發佈日期 | 2024年7月23日 |
狀態 | 這是一個在離線數據集上訓練的靜態模型。隨著我們根據社區反饋改進模型安全性,未來將發佈微調模型的新版本。 |
許可證 | 自定義商業許可證,Llama 3.1社區許可證,可在此處獲取。 |
預期用途
- 預期用例:Llama 3.1旨在用於多種語言的商業和研究用途。指令微調的純文本模型適用於類似助手的聊天,而預訓練模型可用於各種自然語言生成任務。Llama 3.1模型系列還支持利用其模型輸出改進其他模型,包括合成數據生成和蒸餾。Llama 3.1社區許可證允許這些用例。
- 超出範圍:以任何違反適用法律法規(包括貿易合規法律)的方式使用。以任何違反可接受使用政策和Llama 3.1社區許可證的方式使用。在本模型卡中未明確提及支持的語言之外使用。
硬件和軟件
- 訓練因素:我們使用自定義訓練庫、Meta的自定義GPU集群和生產基礎設施進行預訓練。微調、註釋和評估也在生產基礎設施上進行。
- 訓練計算量:在H100 - 80GB(TDP為700W)類型的硬件上累計使用了3930萬GPU小時的計算資源。訓練時間是訓練每個模型所需的總GPU時間,功耗是每個GPU設備的峰值功率容量,並根據電源使用效率進行了調整。
- 訓練溫室氣體排放:估計基於位置的總溫室氣體排放量為11390噸CO2eq。自2020年以來,Meta在其全球運營中保持淨零溫室氣體排放,並100%使用可再生能源匹配其電力消耗,因此基於市場的總溫室氣體排放量為0噸CO2eq。
模型 | 訓練時間(GPU小時) | 訓練功耗(W) | 基於位置的訓練溫室氣體排放(噸CO2eq) | 基於市場的訓練溫室氣體排放(噸CO2eq) |
---|---|---|---|---|
Llama 3.1 8B | 146萬 | 700 | 420 | 0 |
Llama 3.1 70B | 700萬 | 700 | 2040 | 0 |
Llama 3.1 405B | 3084萬 | 700 | 8930 | 0 |
總計 | 3930萬 | 11390 | 0 |
確定訓練能源使用和溫室氣體排放的方法可在此處找到。由於Meta正在公開發布這些模型,其他人不會產生訓練能源使用和溫室氣體排放。
訓練數據
- 概述:Llama 3.1在來自公開來源的約15萬億個令牌的數據上進行了預訓練。微調數據包括公開可用的指令數據集,以及超過2500萬個合成生成的示例。
- 數據新鮮度:預訓練數據的截止日期為2023年12月。
基準測試分數
基礎預訓練模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3 8B | Llama 3.1 8B | Llama 3 70B | Llama 3.1 70B | Llama 3.1 405B |
---|---|---|---|---|---|---|---|---|
通用 | MMLU | 5 | macro_avg/acc_char | 66.7 | 66.7 | 79.5 | 79.3 | 85.2 |
通用 | MMLU-Pro (CoT) | 5 | macro_avg/acc_char | 36.2 | 37.1 | 55.0 | 53.8 | 61.6 |
通用 | AGIEval English | 3 - 5 | average/acc_char | 47.1 | 47.8 | 63.0 | 64.6 | 71.6 |
通用 | CommonSenseQA | 7 | acc_char | 72.6 | 75.0 | 83.8 | 84.1 | 85.8 |
通用 | Winogrande | 5 | acc_char | - | 60.5 | - | 83.3 | 86.7 |
通用 | BIG - Bench Hard (CoT) | 3 | average/em | 61.1 | 64.2 | 81.3 | 81.6 | 85.9 |
通用 | ARC - Challenge | 25 | acc_char | 79.4 | 79.7 | 93.1 | 92.9 | 96.1 |
知識推理 | TriviaQA - Wiki | 5 | em | 78.5 | 77.6 | 89.7 | 89.8 | 91.8 |
閱讀理解 | SQuAD | 1 | em | 76.4 | 77.0 | 85.6 | 81.8 | 89.3 |
閱讀理解 | QuAC (F1) | 1 | f1 | 44.4 | 44.9 | 51.1 | 51.1 | 53.6 |
閱讀理解 | BoolQ | 0 | acc_char | 75.7 | 75.0 | 79.0 | 79.4 | 80.0 |
閱讀理解 | DROP (F1) | 3 | f1 | 58.4 | 59.5 | 79.7 | 79.6 | 84.8 |
指令微調模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3 8B Instruct | Llama 3.1 8B Instruct | Llama 3 70B Instruct | Llama 3.1 70B Instruct | Llama 3.1 405B Instruct |
---|---|---|---|---|---|---|---|---|
通用 | MMLU | 5 | macro_avg/acc | 68.5 | 69.4 | 82.0 | 83.6 | 87.3 |
通用 | MMLU (CoT) | 0 | macro_avg/acc | 65.3 | 73.0 | 80.9 | 86.0 | 88.6 |
通用 | MMLU - Pro (CoT) | 5 | micro_avg/acc_char | 45.5 | 48.3 | 63.4 | 66.4 | 73.3 |
通用 | IFEval | 76.8 | 80.4 | 82.9 | 87.5 | 88.6 | ||
推理 | ARC - C | 0 | acc | 82.4 | 83.4 | 94.4 | 94.8 | 96.9 |
推理 | GPQA | 0 | em | 34.6 | 30.4 | 39.5 | 41.7 | 50.7 |
代碼 | HumanEval | 0 | pass@1 | 60.4 | 72.6 | 81.7 | 80.5 | 89.0 |
代碼 | MBPP ++ base version | 0 | pass@1 | 70.6 | 72.8 | 82.5 | 86.0 | 88.6 |
代碼 | Multipl - E HumanEval | 0 | pass@1 | - | 50.8 | - | 65.5 | 75.2 |
代碼 | Multipl - E MBPP | 0 | pass@1 | - | 52.4 | - | 62.0 | 65.7 |
數學 | GSM - 8K (CoT) | 8 | em_maj1@1 | 80.6 | 84.5 | 93.0 | 95.1 | 96.8 |
數學 | MATH (CoT) | 0 | final_em | 29.1 | 51.9 | 51.0 | 68.0 | 73.8 |
工具使用 | API - Bank | 0 | acc | 48.3 | 82.6 | 85.1 | 90.0 | 92.0 |
工具使用 | BFCL | 0 | acc | 60.3 | 76.1 | 83.0 | 84.8 | 88.5 |
工具使用 | Gorilla Benchmark API Bench | 0 | acc | 1.7 | 8.2 | 14.7 | 29.7 | 35.3 |
工具使用 | Nexus (0 - shot) | 0 | macro_avg/acc | 18.1 | 38.5 | 47.8 | 56.7 | 58.7 |
多語言 | Multilingual MGSM (CoT) | 0 | em | - | 68.9 | - | 86.9 | 91.6 |
多語言基準測試
類別 | 基準測試 | 語言 | Llama 3.1 8B | Llama 3.1 70B | Llama 3.1 405B |
---|---|---|---|---|---|
通用 | MMLU (5 - shot, macro_avg/acc) | 葡萄牙語 | 62.12 | 80.13 | 84.95 |
通用 | MMLU (5 - shot, macro_avg/acc) | 西班牙語 | 62.45 | 80.05 | 85.08 |
通用 | MMLU (5 - shot, macro_avg/acc) | 意大利語 | 61.63 | 80.4 | 85.04 |
通用 | MMLU (5 - shot, macro_avg/acc) | 德語 | 60.59 | 79.27 | 84.36 |
通用 | MMLU (5 - shot, macro_avg/acc) | 法語 | 62.34 | 79.82 | 84.66 |
通用 | MMLU (5 - shot, macro_avg/acc) | 印地語 | 50.88 | 74.52 | 80.31 |
通用 | MMLU (5 - shot, macro_avg/acc) | 泰語 | 50.32 | 72.95 | 78.21 |
責任與安全
作為負責任發佈方法的一部分,我們採用了三管齊下的策略來管理信任和安全風險:
- 使開發者能夠為其目標受眾和Llama支持的用例部署有用、安全和靈活的體驗。
- 保護開發者免受旨在利用Llama功能造成潛在危害的惡意用戶的攻擊。
- 為社區提供保護,幫助防止我們的模型被濫用。
負責任的部署
Llama是一種基礎技術,旨在用於各種用例。有關Meta的Llama模型如何負責任地部署的示例,請參閱我們的社區故事網頁。我們的方法是構建最有用的模型,通過使我們的模型安全與通用用例對齊,解決一系列標準危害,讓世界從技術力量中受益。然後,開發者可以根據自己的用例定製安全措施,定義自己的政策,並在其Llama系統中部署必要的保障措施。Llama 3.1是按照我們的《負責任使用指南》中概述的最佳實踐開發的,你可以參考《負責任使用指南》瞭解更多信息。
Llama 3.1指令微調模型
我們進行安全微調的主要目標是為研究社區提供一個有價值的資源,用於研究安全微調的魯棒性,併為開發者提供一個隨時可用、安全且強大的模型,用於各種應用,以減少開發者部署安全AI系統的工作量。有關實施的安全緩解措施的更多詳細信息,請閱讀Llama 3論文。
微調數據:我們採用多方面的數據收集方法,將供應商提供的人工生成數據與合成數據相結合,以減輕潛在的安全風險。我們開發了許多基於大語言模型(LLM)的分類器,使我們能夠精心選擇高質量的提示和響應,加強數據質量控制。
拒絕和語氣:在Llama 3的基礎上,我們非常重視模型對良性提示的拒絕以及拒絕的語氣。我們在安全數據策略中包括了邊界和對抗性提示,並修改了我們的安全數據響應以遵循語氣指南。
Llama 3.1系統
包括Llama 3.1在內的大語言模型並非旨在單獨部署,而是應作為整體AI系統的一部分,並根據需要添加額外的安全護欄。開發者在構建自主系統時應部署系統保障措施。保障措施是實現正確的有用性 - 安全性對齊以及減輕系統固有的安全和安全風險以及模型或系統與外部工具集成的關鍵。
作為負責任發佈方法的一部分,我們為社區提供了保障措施,開發者應將其與Llama模型或其他LLM一起部署,包括Llama Guard 3、Prompt Guard和Code Shield。我們所有的參考實現演示默認包含這些保障措施,因此開發者可以立即從系統級安全中受益。
新功能
請注意,此版本引入了新功能,包括更長的上下文窗口、多語言輸入和輸出以及開發者可能與第三方工具的集成。使用這些新功能除了需要遵循適用於所有生成式AI用例的最佳實踐外,還需要進行特定的考慮。
工具使用:就像在標準軟件開發中一樣,開發者負責將LLM與他們選擇的工具和服務集成。他們應該為自己的用例定義明確的政策,並評估他們使用的第三方服務的完整性,以瞭解使用此功能時的安全和安全限制。有關安全部署第三方保障措施的最佳實踐,請參閱《負責任使用指南》。
多語言支持:Llama 3.1除英語外還支持7種語言:法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語。Llama可能能夠輸出超出那些滿足安全和有用性性能閾值的語言的文本。我們強烈建議開發者在未根據其政策和《負責任使用指南》中共享的最佳實踐實施微調系統控制的情況下,不要使用此模型進行不支持語言的對話。
評估
我們對Llama模型進行了常見用例和特定功能的評估。常見用例評估衡量了為最常見構建的應用(包括聊天機器人、編碼助手、工具調用)的系統安全風險。我們構建了專門的對抗性評估數據集,並評估了由Llama模型和Llama Guard 3組成的系統,以過濾輸入提示和輸出響應。在上下文中評估應用很重要,我們建議為你的用例構建專門的評估數據集。如果與應用相關,Prompt Guard和Code Shield也可用。
功能評估衡量了Llama模型特定功能固有的漏洞,為此我們精心設計了專門的基準測試,包括長上下文、多語言、工具調用、編碼或記憶。
紅隊測試:在這兩種情況下,我們都進行了定期的紅隊測試,目標是通過對抗性提示發現風險,並利用這些經驗教訓改進我們的基準測試和安全調優數據集。
我們早期與關鍵風險領域的主題專家合作,瞭解這些現實世界危害的性質以及此類模型如何可能對社會造成意外危害。基於這些對話,我們為紅隊制定了一組對抗性目標,例如提取有害信息或重新編程模型以潛在地造成危害。紅隊由網絡安全、對抗性機器學習、負責任AI和完整性方面的專家以及具有特定地理市場完整性問題背景的多語言內容專家組成。
關鍵和其他風險
我們特別關注減輕以下關鍵風險領域:
- CBRNE(化學、生物、放射、核和爆炸材料)有用性:為了評估與化學和生物武器擴散相關的風險,我們進行了提升測試,旨在評估使用Llama 3.1模型是否會顯著提高惡意行為者使用這些類型武器策劃或實施攻擊的能力。
- 兒童安全:我們使用一組專家進行了兒童安全風險評估,以評估模型產生可能導致兒童安全風險的輸出的能力,並通過微調提供必要和適當的風險緩解建議。我們利用這些專家紅隊測試會話,在Llama 3模型開發過程中擴大了我們評估基準的覆蓋範圍。對於Llama 3,我們使用基於目標的方法進行了新的深入會話,以評估模型在多種攻擊向量下的風險,包括Llama 3訓練的其他語言。我們還與內容專家合作進行紅隊測試,評估潛在違規內容,同時考慮市場特定的細微差別或經驗。
- 網絡攻擊支持:我們的網絡攻擊提升研究調查了大語言模型是否會提高人類在黑客任務中的能力,包括技能水平和速度。
我們的攻擊自動化研究專注於評估大語言模型作為自主代理在網絡攻擊行動中的能力,特別是在勒索軟件攻擊的背景下。此評估與之前將大語言模型視為交互式助手的研究不同。主要目標是評估這些模型是否可以在沒有人類干預的情況下有效地作為獨立代理執行復雜的網絡攻擊。
我們對Llama - 3.1 - 405B在網絡攻擊者社會工程提升方面的研究旨在評估AI模型在協助網絡威脅行為者進行魚叉式網絡釣魚活動中的有效性。有關更多信息,請閱讀我們的Llama 3.1網絡安全白皮書。
社區
生成式AI安全需要專業知識和工具,我們相信開放社區的力量可以加速其發展。我們是開放聯盟的積極成員,包括AI聯盟、AI合作組織和MLCommons,積極為安全標準化和透明度做出貢獻。我們鼓勵社區採用像MLCommons概念驗證評估這樣的分類法,以促進安全和內容評估的協作和透明度。我們的Purple Llama工具已開源,供社區使用,並廣泛分發給包括雲服務提供商在內的生態系統合作伙伴。我們鼓勵社區為我們的Github倉庫做出貢獻。
我們還設立了Llama影響贈款計劃,以識別和支持Meta的Llama模型在教育、氣候和開放創新三個類別中對社會有益的最有吸引力的應用。數百份申請中的20名決賽選手可以在這裡找到。
最後,我們建立了一系列資源,包括輸出報告機制和漏洞賞金計劃,以在社區的幫助下不斷改進Llama技術。
倫理考慮和侷限性
Llama 3.1的核心價值觀是開放性、包容性和有用性。它旨在為每個人服務,並適用於廣泛的用例。因此,它旨在讓不同背景、經驗和觀點的人都能使用。Llama 3.1以用戶的實際需求為出發點,不插入不必要的判斷或規範性,同時認識到即使在某些情況下可能看起來有問題的內容,在其他情況下也可能有價值。它尊重所有用戶的尊嚴和自主權,特別是在推動創新和進步的自由思想和表達價值觀方面。
但Llama 3.1是一項新技術,與任何新技術一樣,其使用存在風險。到目前為止進行的測試尚未涵蓋,也不可能涵蓋所有場景。出於這些原因,與所有大語言模型一樣,Llama 3.1的潛在輸出無法提前預測,模型在某些情況下可能會對用戶提示產生不準確、有偏見或其他令人反感的響應。因此,在部署任何Llama 3.1模型的應用程序之前,開發者應該針對其特定應用進行安全測試和調優。請參考可用資源,包括我們的《負責任使用指南》、信任與安全解決方案以及其他資源,以瞭解更多關於負責任開發的信息。
📄 許可證
自定義商業許可證,Llama 3.1社區許可證,可在此處獲取。



