Meta-Llama-3.1-8B-Instruct-GGUF開源模型 - 免費支持多語言對話交流場景

首頁

Meta Llama 3.1 8B Instruct GGUF

由MaziyarPanahi開發

Meta Llama 3.1 8B 指令調優模型的 GGUF 量化版本，適用於多語言對話場景

大型語言模型支持多種語言#多語言對話 #128k長文本 #指令微調

下載量 499.87k

發布時間 : 7/23/2024

模型概述

Llama 3.1 是多語言大語言模型，支持英語、德語、法語等8種語言，針對對話場景優化，在行業基準測試中表現優異

模型特點

多語言支持

原生支持8種語言的文本生成和對話

長上下文處理

支持128k tokens的長上下文窗口

GGUF量化格式

提供多種量化版本(2-8位)，便於不同硬件部署

指令優化

經過監督微調(SFT)和RLHF優化，適合對話場景

模型能力

多語言文本生成

代碼生成

對話系統

指令跟隨

使用案例

對話助手

多語言客服機器人

構建支持多種語言的智能客服系統

在標準測試中優於許多開源和閉源聊天模型

內容生成

多語言內容創作

生成多種語言的營銷文案、文章等內容

🚀 Meta-Llama-3.1-8B-Instruct-GGUF

本項目包含用於 meta-llama/Meta-Llama-3.1-8B-Instruct 的 GGUF 格式模型文件，可用於多語言的商業和研究場景。

🚀 快速開始

本倉庫包含兩個版本的 Meta-Llama-3.1-8B-Instruct，分別適用於 transformers 和原始的 llama 代碼庫。

使用 transformers

從 transformers >= 4.43.0 版本開始，你可以使用 Transformers 的 pipeline 抽象或藉助 Auto 類和 generate() 函數進行對話推理。

確保通過 pip install --upgrade transformers 更新你的 transformers 安裝。

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

注意：你還可以在 huggingface-llama-recipes 找到關於如何在本地使用該模型、使用 torch.compile()、輔助生成、量化等方面的詳細指南。

使用原始 llama 代碼庫

請遵循倉庫中的說明。

要下載原始檢查點，請參考以下使用 huggingface-cli 的示例命令：

huggingface-cli download meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir Meta-Llama-3.1-8B-Instruct

✨ 主要特性

多語言支持：支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語等多種語言。
高性能架構：採用優化的 Transformer 架構，使用分組查詢注意力（GQA）提高推理可擴展性。
廣泛的應用場景：適用於商業和研究，可用於對話、自然語言生成等任務。
安全可靠：經過安全微調，採取多種策略管理信任和安全風險。

📦 安裝指南

環境準備

確保你已經安裝了 Python 和相關依賴庫。可以通過以下命令更新 transformers 庫：

pip install --upgrade transformers

模型下載

可以使用 huggingface-cli 下載模型：

huggingface-cli download meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir Meta-Llama-3.1-8B-Instruct

💻 使用示例

基礎用法

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

高級用法

在更復雜的場景中，你可以根據具體需求調整參數，例如修改 max_new_tokens 控制生成文本的長度，或者使用不同的 torch_dtype 來優化性能。

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.float16},  # 調整數據類型
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "請介紹一下人工智能的發展趨勢。"},
]

outputs = pipeline(
    messages,
    max_new_tokens=512,  # 增加生成文本的長度
)
print(outputs[0]["generated_text"])

📚 詳細文檔

模型信息

Meta Llama 3.1 是一系列多語言大語言模型（LLMs），包括 8B、70B 和 405B 大小的預訓練和指令微調生成模型（文本輸入/文本輸出）。Llama 3.1 指令微調純文本模型（8B、70B、405B）針對多語言對話用例進行了優化，在常見行業基準測試中優於許多現有的開源和閉源聊天模型。

屬性	詳情
模型開發者	Meta
模型架構	自迴歸語言模型，使用優化的 Transformer 架構。微調版本使用監督微調（SFT）和基於人類反饋的強化學習（RLHF）來符合人類對有用性和安全性的偏好。
訓練數據	公開可用在線數據的新組合。微調數據包括公開可用的指令數據集以及超過 2500 萬個合成生成的示例。
參數	8B、70B、405B
輸入模態	多語言文本
輸出模態	多語言文本和代碼
上下文長度	128k
GQA	是
令牌計數	超過 15T
知識截止日期	2023 年 12 月
支持語言	英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語
模型發佈日期	2024 年 7 月 23 日
狀態	基於離線數據集訓練的靜態模型。未來將根據社區反饋改進模型安全性併發布微調模型的新版本。
許可證	自定義商業許可證，Llama 3.1 社區許可證，可在 https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/LICENSE 查看。

預期用途

預期用例：Llama 3.1 旨在用於多語言的商業和研究。指令微調純文本模型適用於類似助手的聊天，而預訓練模型可用於各種自然語言生成任務。Llama 3.1 模型系列還支持利用其模型輸出改進其他模型，包括合成數據生成和蒸餾。Llama 3.1 社區許可證允許這些用例。

超出範圍的使用：以任何違反適用法律法規（包括貿易合規法律）的方式使用。以可接受使用政策和 Llama 3.1 社區許可證禁止的任何其他方式使用。在本模型卡片中未明確提及支持的語言之外使用。

⚠️ 重要提示

Llama 3.1 已經在比 8 種支持語言更廣泛的語言集合上進行了訓練。開發者可以對 Llama 3.1 模型進行微調以支持這 8 種語言之外的語言，前提是他們遵守 Llama 3.1 社區許可證和可接受使用政策，並負責確保以安全和負責任的方式使用 Llama 3.1 處理額外的語言。

硬件和軟件

訓練因素：使用自定義訓練庫、Meta 定製的 GPU 集群和生產基礎設施進行預訓練。微調、註釋和評估也在生產基礎設施上進行。

訓練使用情況：在 H100 - 80GB（TDP 為 700W）類型的硬件上累計使用了 3930 萬 GPU 小時的計算資源。訓練時間是訓練每個模型所需的總 GPU 時間，功耗是每個 GPU 設備的峰值功率容量，並根據功率使用效率進行了調整。

模型	訓練時間（GPU 小時）	訓練功耗（W）	基於位置的訓練溫室氣體排放量（噸 CO2eq）
Llama 3.1 8B	146 萬	700	420
Llama 3.1 70B	700 萬	700	2040
Llama 3.1 405B	3084 萬	700	8930
總計	3930 萬	-	11390

確定訓練能源使用和溫室氣體排放量的方法可在 https://arxiv.org/pdf/2204.05149 找到。由於 Meta 正在公開發布這些模型，其他人不會產生訓練能源使用和溫室氣體排放。

基準測試分數

基礎預訓練模型

類別	基準測試	樣本數	指標	Llama 3 8B	Llama 3.1 8B	Llama 3 70B	Llama 3.1 70B	Llama 3.1 405B
通用	MMLU	5	macro_avg/acc_char	66.7	66.7	79.5	79.3	85.2
通用	MMLU - Pro (CoT)	5	macro_avg/acc_char	36.2	37.1	55.0	53.8	61.6
通用	AGIEval 英語	3 - 5	average/acc_char	47.1	47.8	63.0	64.6	71.6
通用	CommonSenseQA	7	acc_char	72.6	75.0	83.8	84.1	85.8
通用	Winogrande	5	acc_char	-	60.5	-	83.3	86.7
通用	BIG - Bench Hard (CoT)	3	average/em	61.1	64.2	81.3	81.6	85.9
通用	ARC - Challenge	25	acc_char	79.4	79.7	93.1	92.9	96.1
知識推理	TriviaQA - Wiki	5	em	78.5	77.6	89.7	89.8	91.8
閱讀理解	SQuAD	1	em	76.4	77.0	85.6	81.8	89.3
閱讀理解	QuAC (F1)	1	f1	44.4	44.9	51.1	51.1	53.6
閱讀理解	BoolQ	0	acc_char	75.7	75.0	79.0	79.4	80.0
閱讀理解	DROP (F1)	3	f1	58.4	59.5	79.7	79.6	84.8

指令微調模型

類別	基準測試	樣本數	指標	Llama 3 8B Instruct	Llama 3.1 8B Instruct	Llama 3 70B Instruct	Llama 3.1 70B Instruct	Llama 3.1 405B Instruct
通用	MMLU	5	macro_avg/acc	68.5	69.4	82.0	83.6	87.3
通用	MMLU (CoT)	0	macro_avg/acc	65.3	73.0	80.9	86.0	88.6
通用	MMLU - Pro (CoT)	5	micro_avg/acc_char	45.5	48.3	63.4	66.4	73.3
通用	IFEval	-	-	76.8	80.4	82.9	87.5	88.6
推理	ARC - C	0	acc	82.4	83.4	94.4	94.8	96.9
推理	GPQA	0	em	34.6	30.4	39.5	41.7	50.7
代碼	HumanEval	0	pass@1	60.4	72.6	81.7	80.5	89.0
代碼	MBPP ++ base version	0	pass@1	70.6	72.8	82.5	86.0	88.6
代碼	Multipl - E HumanEval	0	pass@1	-	50.8	-	65.5	75.2
代碼	Multipl - E MBPP	0	pass@1	-	52.4	-	62.0	65.7
數學	GSM - 8K (CoT)	8	em_maj1@1	80.6	84.5	93.0	95.1	96.8
數學	MATH (CoT)	0	final_em	29.1	51.9	51.0	68.0	73.8
工具使用	API - Bank	0	acc	48.3	82.6	85.1	90.0	92.0
工具使用	BFCL	0	acc	60.3	76.1	83.0	84.8	88.5
工具使用	Gorilla Benchmark API Bench	0	acc	1.7	8.2	14.7	29.7	35.3
工具使用	Nexus (0 - shot)	0	macro_avg/acc	18.1	38.5	47.8	56.7	58.7
多語言	Multilingual MGSM (CoT)	0	em	-	68.9	-	86.9	91.6

多語言基準測試

類別	基準測試	語言	Llama 3.1 8B	Llama 3.1 70B	Llama 3.1 405B
通用	MMLU (5 - shot, macro_avg/acc)	葡萄牙語	62.12	80.13	84.95
通用	MMLU (5 - shot, macro_avg/acc)	西班牙語	62.45	80.05	85.08
通用	MMLU (5 - shot, macro_avg/acc)	意大利語	61.63	80.4	85.04
通用	MMLU (5 - shot, macro_avg/acc)	德語	60.59	79.27	84.36
通用	MMLU (5 - shot, macro_avg/acc)	法語	62.34	79.82	84.66
通用	MMLU (5 - shot, macro_avg/acc)	印地語	50.88	74.52	80.31
通用	MMLU (5 - shot, macro_avg/acc)	泰語	50.32	72.95	78.21

🔧 技術細節

關於 GGUF

GGUF 是 llama.cpp 團隊在 2023 年 8 月 21 日推出的一種新格式，它取代了不再受 llama.cpp 支持的 GGML 格式。

以下是已知支持 GGUF 的客戶端和庫的不完全列表：

llama.cpp：GGUF 的源項目，提供命令行界面和服務器選項。
llama-cpp-python：一個支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服務器的 Python 庫。
LM Studio：一個易於使用且功能強大的本地 GUI，適用於 Windows 和 macOS（Silicon），支持 GPU 加速。截至 2023 年 11 月 27 日，Linux 版本處於測試階段。
text-generation-webui：最廣泛使用的 Web UI，具有許多功能和強大的擴展，支持 GPU 加速。
KoboldCpp：一個功能齊全的 Web UI，支持所有平臺和 GPU 架構的 GPU 加速，特別適合講故事。
GPT4All：一個免費的開源本地運行 GUI，支持 Windows、Linux 和 macOS，具有完整的 GPU 加速。
LoLLMS Web UI：一個很棒的 Web UI，具有許多有趣和獨特的功能，包括一個完整的模型庫，便於模型選擇。
Faraday.dev：一個有吸引力且易於使用的基於角色的聊天 GUI，適用於 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
candle：一個專注於性能的 Rust ML 框架，包括 GPU 支持，易於使用。
ctransformers：一個支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服務器的 Python 庫。截至 2023 年 11 月 27 日，ctransformers 已經很長時間沒有更新，不支持許多最新的模型。

安全與責任

負責任的發佈

Llama 是一種基礎技術，旨在用於各種用例。關於 Meta 的 Llama 模型如何負責任地部署的示例，可以在我們的社區故事網頁找到。我們的方法是構建最有用的模型，使世界能夠從技術力量中受益，通過調整模型安全性以應對通用用例，解決一系列標準的危害。開發者可以根據自己的用例定製安全性，定義自己的策略，並在其 Llama 系統中部署必要的保障措施。Llama 3.1 是按照我們的《負責任使用指南》中概述的最佳實踐開發的，你可以參考《負責任使用指南》瞭解更多信息。

Llama 3.1 指令微調

我們進行安全微調的主要目標是為研究社區提供一個有價值的資源，用於研究安全微調的魯棒性，同時為開發者提供一個現成的、安全且強大的模型，用於各種應用，以減少開發者部署安全 AI 系統的工作量。有關實施的安全緩解措施的更多詳細信息，請閱讀 Llama 3 論文。

微調數據：我們採用多方面的數據收集方法，將供應商提供的人類生成數據與合成數據相結合，以減輕潛在的安全風險。我們開發了許多基於大語言模型（LLM）的分類器，使我們能夠精心選擇高質量的提示和響應，加強數據質量控制。

拒絕和語氣：基於我們在 Llama 3 中開始的工作，我們非常重視模型對良性提示的拒絕以及拒絕語氣。我們在安全數據策略中包括了邊界和對抗性提示，並修改了我們的安全數據響應以遵循語氣指南。

Llama 3.1 系統

大語言模型（包括 Llama 3.1）並非旨在單獨部署，而是應作為整體 AI 系統的一部分，根據需要添加額外的安全保障措施。開發者在構建代理系統時應部署系統保障措施。保障措施是實現正確的有用性 - 安全性對齊以及減輕系統固有的安全和風險以及模型或系統與外部工具集成時的關鍵。

作為我們負責任發佈方法的一部分，我們為社區提供了保障措施，開發者應在其 Llama 模型或其他大語言模型中部署這些措施，包括 Llama Guard 3、Prompt Guard 和 Code Shield。我們所有的參考實現演示默認包含這些保障措施，以便開發者可以立即從系統級安全中受益。

新功能

請注意，此版本引入了新功能，包括更長的上下文窗口、多語言輸入和輸出以及開發者可能與第三方工具進行的集成。使用這些新功能除了需要遵循適用於所有生成式 AI 用例的最佳實踐外，還需要進行特定的考慮。

工具使用：就像在標準軟件開發中一樣，開發者負責將大語言模型與他們選擇的工具和服務進行集成。他們應該為自己的用例定義明確的策略，並評估他們使用的第三方服務的完整性，以瞭解使用此功能時的安全和風險限制。請參考《負責任使用指南》以獲取安全部署第三方保障措施的最佳實踐。

多語言支持：Llama 3.1 除英語外還支持 7 種語言：法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語。Llama 可能能夠輸出超出這些達到安全和有用性性能閾值的語言的文本。我們強烈建議開發者在未根據其政策和《負責任使用指南》中共享的最佳實踐實施微調系統控制的情況下，不要使用此模型進行不支持語言的對話。

評估

我們對 Llama 模型進行了常見用例和特定功能的評估。常見用例評估衡量了為最常見構建的應用程序（包括聊天機器人、編碼助手、工具調用）構建的系統的安全風險。我們構建了專門的對抗性評估數據集，並評估了由 Llama 模型和 Llama Guard 3 組成的系統，以過濾輸入提示和輸出響應。在上下文中評估應用程序非常重要，我們建議為你的用例構建專門的評估數據集。如果與應用程序相關，還可以使用 Prompt Guard 和 Code Shield。

功能評估衡量了 Llama 模型特定功能固有的漏洞，為此我們精心設計了專門的基準測試，包括長上下文、多語言、工具調用、編碼或記憶。

紅隊測試：對於這兩種情況，我們都進行了定期的紅隊測試，目標是通過對抗性提示發現風險，並利用這些經驗教訓改進我們的基準測試和安全微調數據集。

我們早期與關鍵風險領域的主題專家合作，以瞭解這些現實世界危害的性質以及此類模型如何可能對社會造成意外危害。基於這些對話，我們為紅隊制定了一系列對抗性目標，例如提取有害信息或重新編程模型以潛在地造成危害。紅隊由網絡安全、對抗性機器學習、負責任 AI 和完整性方面的專家以及在特定地理市場的完整性問題方面有背景的多語言內容專家組成。

關鍵和其他風險

我們特別緻力於減輕以下關鍵風險領域：

CBRNE（化學、生物、放射性、核和爆炸物材料）有用性：為了評估與化學和生物武器擴散相關的風險，我們進行了提升測試，旨在評估使用 Llama 3.1 模型是否會顯著增強惡意行為者計劃或實施使用此類武器的攻擊的能力。
兒童安全：我們使用專家團隊進行了兒童安全風險評估，以評估模型產生可能導致兒童安全風險的輸出的能力，並通過微調提供必要和適當的風險緩解措施。我們利用這些專家紅隊測試會話，通過 Llama 3 模型開發擴展了我們評估基準的覆蓋範圍。對於 Llama 3，我們使用基於目標的方法進行了新的深入會話，以評估模型在多個攻擊向量上的風險，包括 Llama 3 訓練的額外語言。我們還與內容專家合作進行紅隊測試，評估潛在違規內容，同時考慮特定市場的細微差別或經驗。
網絡攻擊啟用：我們的網絡攻擊提升研究調查了大語言模型是否可以在技能水平和速度方面增強人類在黑客任務中的能力。我們的攻擊自動化研究專注於評估大語言模型作為自主代理在網絡進攻行動中的能力，特別是在勒索軟件攻擊的背景下。此評估與之前將大語言模型視為交互式助手的研究不同。主要目標是評估這些模型是否可以有效地作為獨立代理執行復雜的網絡攻擊而無需人類干預。我們對 Llama - 3.1 - 405B 對網絡攻擊者的社會工程提升的研究旨在評估 AI 模型在協助網絡威脅行為者進行魚叉式網絡釣魚活動中的有效性。有關更多信息，請閱讀我們的 Llama 3.1 網絡安全白皮書。

社區

生成式 AI 安全需要專業知識和工具，我們相信開放社區的力量可以加速其發展。我們是開放聯盟的積極成員，包括 AI 聯盟、AI 合作組織和 MLCommons，積極為安全標準化和透明度做出貢獻。我們鼓勵社區採用 MLCommons 概念驗證評估等分類法，以促進安全和內容評估方面的合作和透明度。我們的 Purple Llama 工具已開源供社區使用，並廣泛分發給包括雲服務提供商在內的生態系統合作伙伴。我們鼓勵社區為我們的 GitHub 倉庫做出貢獻。

我們還設立了 Llama 影響贈款計劃，以識別和支持 Meta 的 Llama 模型在三個類別中的最有吸引力的應用：教育、氣候和開放創新。從數百份申請中選出的 20 名決賽選手可以在這裡找到。

最後，我們建立了一系列資源，包括輸出報告機制和漏洞賞金計劃，以在社區的幫助下不斷改進 Llama 技術。