Meta Llama 3 8B開源指令調優模型 - 對話場景適用，安全好用！

首頁

Meta Llama Meta Llama 3 8B Instruct 4bits

由RichardErkhov開發

Meta Llama 3 8B參數版本的指令調優模型，針對對話場景優化，具有優秀的幫助性和安全性表現。

大型語言模型

Transformers

#多輪對話優化 #強化學習對齊 #英語文本生成

下載量 28

發布時間 : 4/22/2024

模型概述

Llama 3是Meta開發的大語言模型系列，8B-Instruct版本專門針對對話任務進行指令調優，適用於助手類應用。

模型特點

指令調優優化

使用監督微調(SFT)和基於人類反饋的強化學習(RLHF)進行對齊優化

長上下文支持

支持8k tokens的上下文長度

高效推理

採用分組查詢注意力(GQA)機制提高推理效率

安全設計

經過嚴格的紅隊測試和安全評估，內置安全緩解措施

模型能力

文本生成

代碼生成

對話系統

問答系統

內容創作

使用案例

智能助手

客服聊天機器人

構建自然流暢的客服對話系統

能理解用戶意圖並提供準確回答

教育

學習輔導

幫助學生解答問題和解釋概念

提供清晰易懂的解釋

開發工具

編程助手

幫助開發者編寫和調試代碼

能生成多種編程語言的代碼片段

🚀 Meta-Llama-3-8B-Instruct 量化模型

本項目提供了 Meta-Llama-3-8B-Instruct 模型的量化版本，由 Richard Erkhov 完成。通過量化技術，可在保證一定性能的前提下，有效減少模型的存儲和計算資源需求。該模型基於 Meta 開發的 Llama 3 大語言模型，在對話場景中表現出色，適用於商業和研究用途。

GitHub

Discord

請求更多模型

🚀 快速開始

本倉庫包含兩個版本的 Meta-Llama-3-8B-Instruct，可分別與 transformers 庫和原始 llama3 代碼庫配合使用。以下是詳細的使用說明：

使用 `transformers` 庫

你可以使用 transformers 庫的 pipeline 抽象，或利用 Auto 類結合 generate() 函數進行對話推理。以下是兩種方法的示例：

Transformers pipeline

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
    messages, 
    tokenize=False, 
    add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

Transformers AutoModelForCausalLM

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))

使用 `llama3` 代碼庫

請遵循倉庫中的說明進行操作。

若要下載原始檢查點，可使用以下 huggingface-cli 命令示例：

huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir Meta-Llama-3-8B-Instruct

對於 Hugging Face 支持，建議使用 transformers 或 TGI，但類似的命令同樣適用。

✨ 主要特性

高性能：Meta Llama 3 系列大語言模型在常見行業基準測試中表現出色，超越了許多現有的開源聊天模型。
多場景適用：指令微調模型針對對話用例進行了優化，適用於類助手聊天；預訓練模型可用於各種自然語言生成任務。
安全可靠：在模型開發過程中，充分考慮了安全性和實用性，通過一系列安全措施降低潛在風險。
可擴展性：提供 8B 和 70B 兩種參數規模的模型，滿足不同應用場景的需求。

📦 安裝指南

本項目的安裝依賴於 transformers 庫和 huggingface-cli 工具。你可以使用以下命令進行安裝：

pip install transformers
pip install huggingface-cli

📚 詳細文檔

模型詳情

Meta 開發併發布了 Meta Llama 3 系列大語言模型（LLMs），這是一組包含 8B 和 70B 規模的預訓練和指令微調生成文本模型。Llama 3 指令微調模型針對對話用例進行了優化，在常見行業基準測試中超越了許多現有的開源聊天模型。此外，在開發這些模型時，我們非常注重優化實用性和安全性。

屬性	詳情
模型開發者	Meta
變體	Llama 3 有 8B 和 70B 兩種參數規模，包括預訓練和指令微調兩種變體。
輸入	模型僅接受文本輸入。
輸出	模型僅生成文本和代碼。
模型架構	Llama 3 是一種自迴歸語言模型，採用了優化的 Transformer 架構。微調版本使用監督微調（SFT）和基於人類反饋的強化學習（RLHF）來符合人類對實用性和安全性的偏好。

訓練數據

概述：Llama 3 在超過 15 萬億個公開數據源的令牌上進行了預訓練。微調數據包括公開可用的指令數據集，以及超過 1000 萬個經過人工標註的示例。預訓練和微調數據集均不包含 Meta 用戶數據。
數據新鮮度：預訓練數據的截止時間分別為 2023 年 3 月（7B 模型）和 2023 年 12 月（70B 模型）。

基準測試

在本節中，我們報告了 Llama 3 模型在標準自動基準測試中的結果。所有評估均使用我們的內部評估庫進行。有關方法的詳細信息，請參閱此處。

基礎預訓練模型

類別	基準測試	Llama 3 8B	Llama2 7B	Llama2 13B	Llama 3 70B	Llama2 70B
通用	MMLU (5-shot)	66.6	45.7	53.8	79.5	69.7
通用	AGIEval English (3 - 5 shot)	45.9	28.8	38.7	63.0	54.8
通用	CommonSenseQA (7-shot)	72.6	57.6	67.6	83.8	78.7
通用	Winogrande (5-shot)	76.1	73.3	75.4	83.1	81.8
通用	BIG-Bench Hard (3-shot, CoT)	61.1	38.1	47.0	81.3	65.7
通用	ARC-Challenge (25-shot)	78.6	53.7	67.6	93.0	85.3
知識推理	TriviaQA-Wiki (5-shot)	78.5	72.1	79.6	89.7	87.5
閱讀理解	SQuAD (1-shot)	76.4	72.2	72.1	85.6	82.6
閱讀理解	QuAC (1-shot, F1)	44.4	39.6	44.9	51.1	49.4
閱讀理解	BoolQ (0-shot)	75.7	65.5	66.9	79.0	73.1
閱讀理解	DROP (3-shot, F1)	58.4	37.9	49.8	79.7	70.2

指令微調模型

基準測試	Llama 3 8B	Llama 2 7B	Llama 2 13B	Llama 3 70B	Llama 2 70B
MMLU (5-shot)	68.4	34.1	47.8	82.0	52.9
GPQA (0-shot)	34.2	21.7	22.3	39.5	21.0
HumanEval (0-shot)	62.2	7.9	14.0	81.7	25.6
GSM-8K (8-shot, CoT)	79.6	25.7	77.4	93.0	57.5
MATH (4-shot, CoT)	30.0	3.8	6.7	50.4	11.6

責任與安全

我們認為開放的 AI 方法能夠帶來更好、更安全的產品，加速創新，並擴大整體市場。我們致力於負責任的 AI 開發，並採取了一系列措施來限制濫用和危害，支持開源社區。

基礎模型是一種通用技術，旨在用於各種應用場景。由於不同應用的安全需求不同，這些模型並非開箱即用就能滿足所有開發者對安全級別的要求。

相反，負責任的大語言模型應用部署需要在應用開發的各個階段實施一系列安全最佳實踐，從模型預訓練、微調，到部署包含安全保障措施的系統，以滿足特定用例和受眾的安全需求。

作為 Llama 3 發佈的一部分，我們更新了負責任使用指南，概述了開發者為其應用實施模型和系統級安全的步驟和最佳實踐。我們還提供了一系列資源，包括 Meta Llama Guard 2 和 Code Shield 安全保障工具。這些工具已被證明能夠顯著降低大語言模型系統的殘留風險，同時保持較高的實用性。我們鼓勵開發者根據自身需求調整和部署這些安全保障措施，並提供了一個參考實現供你參考。

Llama 3-Instruct

正如《負責任使用指南》中所述，模型實用性和模型對齊性之間可能存在一定的權衡。開發者應根據具體用例和受眾，謹慎權衡對齊性和實用性的益處。在使用 Llama 模型時，開發者應注意殘留風險，並根據需要使用額外的安全工具，以達到適合其用例的安全標準。

安全性：對於我們的指令微調模型，我們進行了廣泛的紅隊測試、對抗性評估，並實施了安全緩解技術，以降低殘留風險。與任何大語言模型一樣，殘留風險可能仍然存在，我們建議開發者在其用例的背景下評估這些風險。同時，我們正在與社區合作，使 AI 安全基準標準更加透明、嚴格和可解釋。

拒絕回答：除了殘留風險，我們還非常重視模型對良性提示的拒絕回答問題。過度拒絕不僅會影響用戶體驗，在某些情況下甚至可能有害。我們聽取了開發者社區的反饋，並改進了微調過程，確保 Llama 3 比 Llama 2 更不可能錯誤地拒絕回答提示。

我們建立了內部基準測試，並開發了緩解措施，以限制錯誤拒絕回答的情況，使 Llama 3 成為我們迄今為止最實用的模型。

負責任的發佈

除了上述負責任使用的考慮因素外，我們還遵循了嚴格的流程，在做出發佈決定之前，採取了額外的措施來防止濫用和重大風險。

濫用：如果你訪問或使用 Llama 3，即表示你同意《可接受使用政策》。該政策的最新版本可在此處查看。

重大風險

CBRNE（化學、生物、放射性、核和高當量爆炸物）：我們對模型在這方面的安全性進行了雙重評估：

在模型訓練期間進行迭代測試，評估與 CBRNE 威脅和其他對抗性風險相關的響應安全性。
邀請外部 CBRNE 專家進行提升測試，評估模型準確提供專家知識的能力，並參考網絡搜索（不使用模型）的結果，降低潛在 CBRNE 濫用的風險。

網絡安全：我們使用 Meta 的網絡安全評估套件 CyberSecEval 對 Llama 3 進行了評估，測量了 Llama 3 在作為編碼助手時建議不安全代碼的傾向，以及在執行網絡攻擊請求時的合規性，其中攻擊定義遵循行業標準 MITRE ATT&CK 網絡攻擊本體。在不安全編碼和網絡攻擊實用性測試中，Llama 3 的表現與同等編碼能力的模型相當或更安全。

兒童安全：我們組建了專家團隊進行兒童安全風險評估，評估模型產生可能導致兒童安全風險輸出的能力，並通過微調提供必要的風險緩解建議。我們利用這些專家紅隊測試擴展了評估基準的覆蓋範圍，貫穿 Llama 3 模型的開發過程。對於 Llama 3，我們採用基於目標的方法進行了新的深入測試，評估模型在多個攻擊向量下的風險。我們還與內容專家合作進行紅隊測試，評估可能違反規定的內容，同時考慮特定市場的細微差別和經驗。

社區

生成式 AI 安全需要專業知識和工具，我們相信開放社區的力量能夠加速其發展。我們積極參與開放聯盟，包括 AI 聯盟、AI 合作伙伴關係和 MLCommons，積極為安全標準化和透明度做出貢獻。我們鼓勵社區採用 MLCommons 概念驗證評估等分類方法，促進安全和內容評估的協作和透明度。我們的 Purple Llama 工具已開源供社區使用，並廣泛分發至包括雲服務提供商在內的生態系統合作伙伴。我們鼓勵社區為我們的 GitHub 倉庫做出貢獻。

最後，我們建立了一系列資源，包括輸出報告機制和漏洞賞金計劃，以藉助社區的力量不斷改進 Llama 技術。

道德考量與侷限性

Llama 3 的核心價值觀是開放性、包容性和實用性。它旨在為所有人服務，適用於各種用例。因此，它的設計旨在讓不同背景、經驗和觀點的人都能使用。Llama 3 尊重用戶及其需求，不插入不必要的判斷或規範性內容，同時認識到即使某些內容在某些情況下可能存在問題，但在其他情況下也可能有價值。它尊重所有用戶的尊嚴和自主性，特別是在推動創新和進步的自由思想和表達價值觀方面。

然而，Llama 3 是一項新技術，與任何新技術一樣，其使用存在一定風險。到目前為止的測試均以英語進行，無法涵蓋所有場景。因此，與所有大語言模型一樣，Llama 3 的潛在輸出無法提前預測，在某些情況下，模型可能會對用戶提示產生不準確、有偏見或其他令人反感的響應。因此，在部署 Llama 3 模型的任何應用之前，開發者應針對其特定應用進行安全測試和調整。正如《負責任使用指南》中所述，我們建議將 Purple Llama 解決方案納入你的工作流程，特別是 Llama Guard，它提供了一個基礎模型，用於過濾輸入和輸出提示，在模型級安全的基礎上增加系統級安全。

請參閱負責任使用指南。

引用說明

@article{llama3modelcard,
  title={Llama 3 Model Card},
  author={AI@Meta},
  year={2024},
  url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}

貢獻者

Aaditya Singh; Aaron Grattafiori; Abhimanyu Dubey; Abhinav Jauhri; Abhinav Pandey; Abhishek Kadian; Adam Kelsey; Adi Gangidi; Ahmad Al-Dahle; Ahuva Goldstand; Aiesha Letman; Ajay Menon; Akhil Mathur; Alan Schelten; Alex Vaughan; Amy Yang; Andrei Lupu; Andres Alvarado; Andrew Gallagher; Andrew Gu; Andrew Ho; Andrew Poulton; Andrew Ryan; Angela Fan; Ankit Ramchandani; Anthony Hartshorn; Archi Mitra; Archie Sravankumar; Artem Korenev; Arun Rao; Ashley Gabriel; Ashwin Bharambe; Assaf Eisenman; Aston Zhang; Aurelien Rodriguez; Austen Gregerson; Ava Spataru; Baptiste Roziere; Ben Maurer; Benjamin Leonhardi; Bernie Huang; Bhargavi Paranjape; Bing Liu; Binh Tang; Bobbie Chern; Brani Stojkovic; Brian Fuller; Catalina Mejia Arenas; Chao Zhou; Charlotte Caucheteux; Chaya Nayak; Ching-Hsiang Chu; Chloe Bi; Chris Cai; Chris Cox; Chris Marra; Chris McConnell; Christian Keller; Christoph Feichtenhofer; Christophe Touret; Chunyang Wu; Corinne Wong; Cristian Canton Ferrer; Damien Allonsius; Daniel Kreymer; Daniel Haziza; Daniel Li; Danielle Pintz; Danny Livshits; Danny Wyatt; David Adkins; David Esiobu; David Xu; Davide Testuggine; Delia David; Devi Parikh; Dhruv Choudhary; Dhruv Mahajan; Diana Liskovich; Diego Garcia-Olano; Diego Perino; Dieuwke Hupkes; Dingkang Wang; Dustin Holland; Egor Lakomkin; Elina Lobanova; Xiaoqing Ellen Tan; Emily Dinan; Eric Smith; Erik Brinkman; Esteban Arcaute; Filip Radenovic; Firat Ozgenel; Francesco Caggioni; Frank Seide; Frank Zhang; Gabriel Synnaeve; Gabriella Schwarz; Gabrielle Lee; Gada Badeer; Georgia Anderson; Graeme Nail; Gregoire Mialon; Guan Pang; Guillem Cucurell; Hailey Nguyen; Hannah Korevaar; Hannah Wang; Haroun Habeeb; Harrison Rudolph; Henry Aspegren; Hu Xu; Hugo Touvron; Iga Kozlowska; Igor Molybog; Igor Tufanov; Iliyan Zarov; Imanol Arrieta Ibarra; Irina-Elena Veliche; Isabel Kloumann; Ishan Misra; Ivan Evtimov; Jacob Xu; Jade Copet; Jake Weissman; Jan Geffert; Jana Vranes; Japhet Asher; Jason Park; Jay Mahadeokar; Jean-Baptiste Gaya; Jeet Shah; Jelmer van der Linde; Jennifer Chan; Jenny Hong; Jenya Lee; Jeremy Fu; Jeremy Teboul; Jianfeng Chi; Jianyu Huang; Jie Wang; Jiecao Yu; Joanna Bitton; Joe Spisak; Joelle Pineau; Jon Carvill; Jongsoo Park; Joseph Rocca; Joshua Johnstun; Junteng Jia; Kalyan Vasuden Alwala; Kam Hou U; Kate Plawiak; Kartikeya Upasani; Kaushik Veeraraghavan; Ke Li; Kenneth Heafield; Kevin Stone; Khalid El-Arini; Krithika Iyer; Kshitiz Malik; Kuenley Chiu; Kunal Bhalla; Kyle Huang; Lakshya Garg; Lauren Rantala-Yeary; Laurens van der Maaten; Lawrence Chen; Leandro Silva; Lee Bell; Lei Zhang; Liang Tan; Louis Martin; Lovish Madaan; Luca Wehrstedt; Lukas Blecher; Luke de Oliveira; Madeline Muzzi; Madian Khabsa; Manav Avlani; Mannat Singh; Manohar Paluri; Mark Zuckerberg; Marcin Kardas; Martynas Mankus; Mathew Oldham; Mathieu Rita; Matthew Lennie; Maya Pavlova; Meghan Keneally; Melanie Kambadur; Mihir Patel; Mikayel Samvelyan; Mike Clark; Mike Lewis; Min Si; Mitesh Kumar Singh; Mo Metanat; Mona Hassan; Naman Goyal; Narjes Torabi; Nicolas Usunier; Nikolay Bashlykov; Nikolay Bogoychev; Niladri Chatterji; Ning Dong; Oliver Aobo Yang; Olivier Duchenne; Onur Celebi; Parth Parekh; Patrick Alrassy; Paul Saab; Pavan Balaji; Pedro Rittner; Pengchuan Zhang; Pengwei Li; Petar Vasic; Peter Weng; Polina Zvyagina; Prajjwal Bhargava; Pratik Dubal; Praveen Krishnan; Punit Singh Koura; Qing He; Rachel Rodriguez; Ragavan Srinivasan; Rahul Mitra; Ramon Calderer; Raymond Li; Robert Stojnic; Roberta Raileanu; Robin Battey; Rocky Wang; Rohit Girdhar; Rohit Patel; Romain Sauvestre; Ronnie Polidoro; Roshan Sumbaly; Ross Taylor; Ruan Silva; Rui Hou; Rui Wang; Russ Howes; Ruty Rinott; Saghar Hosseini; Sai Jayesh Bondu; Samyak Datta; Sanjay Singh; Sara Chugh; Sargun Dhillon; Satadru Pan; Sean Bell; Sergey Edunov; Shaoliang Nie; Sharan Narang; Sharath Raparthy; Shaun Lindsay; Sheng Feng; Sheng Shen; Shenghao Lin; Shiva Shankar; Shruti Bhosale; Shun Zhang; Simon Vandenhende; Sinong Wang; Seohyun Sonia Kim; Soumya Batra; Sten Sootla; Steve Kehoe; Suchin Gururangan; Sumit Gupta; Sunny Virk; Sydney Borodinsky; Tamar Glaser; Tamar Herman; Tamara Best; Tara Fowler; Thomas Georgiou; Thomas Scialom; Tianhe Li; Todor Mihaylov; Tong Xiao; Ujjwal Karn; Vedanuj Goswami; Vibhor Gupta; Vignesh Ramanathan; Viktor Kerkez; Vinay Satish Kumar; Vincent Gonguet; Vish Vogeti; Vlad Poenaru; Vlad Tiberiu Mihailescu; Vladan Petrovic; Vladimir Ivanov; Wei Li; Weiwei Chu; Wenhan Xiong; Wenyin Fu; Wes Bouaziz; Whitney Meers; Will Constable; Xavier Martinet; Xiaojian Wu; Xinbo Gao; Xinfeng Xie; Xuchao Jia; Yaelle Goldschlag; Yann LeCun; Yashesh Gaur; Yasmine Babaei; Ye Qi; Yenda Li; Yi Wen; Yiwen Song; Youngjin Nam; Yuchen Hao; Yuchen Zhang; Yun Wang; Yuning Mao; Yuzi He; Zacharie Delpierre Coudert; Zachary DeVito; Zahra Hankir; Zhaoduo Wen; Zheng Yan; Zhengxing Chen; Zhenyu Yang; Zoe Papakipos

🔧 技術細節

硬件與軟件

訓練因素：我們使用自定義訓練庫、Meta 的研究超級集群和生產集群進行預訓練。微調、標註和評估也在第三方雲計算平臺上進行。
碳足跡：預訓練過程累計使用了 770 萬 GPU 小時的 H100 - 80GB 硬件（TDP 為 700W）。估計總排放量為 2290 tCO2eq，其中 100% 由 Meta 的可持續發展計劃抵消。