Llama 3.1 8B Instruct GGUF
Meta Llama 3.1系列是多語言大語言模型(LLMs)的集合,包括8B、70B和405B大小的預訓練和指令調優生成模型。8B版本針對多語言對話用例進行了優化,在常見基準測試中表現優異。
下載量 4,071
發布時間 : 4/23/2025
模型概述
Llama 3.1是一種自迴歸語言模型,使用優化的Transformer架構。指令調優版本通過監督微調(SFT)和人類反饋強化學習(RLHF)對齊人類偏好,提高幫助性和安全性。
模型特點
多語言支持
支持8種主要語言,包括英語、德語、法語等,適合國際化應用場景。
長上下文處理
支持128k令牌的上下文長度,適合處理長文檔和複雜對話。
高效推理
採用分組查詢注意力(GQA)機制,提高推理效率。
工具使用能力
支持工具調用和函數執行,可擴展模型功能。
模型能力
多語言文本生成
對話系統
代碼生成
工具調用
長文檔處理
使用案例
對話系統
多語言客服機器人
構建支持多種語言的智能客服系統
在8種語言上表現優異
個人助手
開發類似助手的聊天應用
通過RLHF優化對話質量
內容生成
多語言內容創作
生成多種語言的營銷文案、文章等
保持語言風格一致性
🚀 Llama 3.1模型
Llama 3.1是Meta推出的多語言大語言模型集合,包含8B、70B和405B等不同規模的預訓練和指令微調生成模型。該模型在多語言對話場景中表現出色,在常見行業基準測試中超越了許多開源和閉源聊天模型。
🚀 快速開始
- 查看我們關於Llama 3.1微調支持的博客:unsloth.ai/blog/llama4
- 在文檔中查看我們其餘的微調筆記本。
- 將微調後的模型導出為GGUF、Ollama、llama.cpp、vLLM或HF格式。
查看我們的模型集合,獲取包括4位和16位格式的Llama 3.1版本。
Unsloth Dynamic v2.0實現了卓越的準確性,性能優於其他領先的量化方法。
✨ 主要特性
- 多語言支持:支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。
- 高性能:在常見行業基準測試中表現出色,超越了許多開源和閉源聊天模型。
- 多種使用方式:支持使用
transformers
庫和原始llama
代碼庫進行推理。 - 工具使用支持:支持多種工具使用格式,可通過聊天模板實現工具調用。
📦 安裝指南
使用transformers
從transformers >= 4.43.0
版本開始,你可以使用Transformers的pipeline
抽象或藉助Auto類和generate()
函數進行對話推理。
確保通過pip install --upgrade transformers
更新你的transformers庫。
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
使用原始llama
代碼庫
請遵循倉庫中的說明。
要下載原始檢查點,請使用以下huggingface-cli
命令:
huggingface-cli download meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir Meta-Llama-3.1-8B-Instruct
💻 使用示例
基礎用法
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
高級用法 - 工具使用
# 首先,定義一個工具
def get_current_temperature(location: str) -> float:
"""
獲取指定位置的當前溫度。
參數:
location: 要獲取溫度的位置,格式為 "城市, 國家"
返回:
指定位置的當前溫度,以浮點數表示。
"""
return 22. # 實際函數應獲取真實的溫度!
# 接下來,創建一個聊天並應用聊天模板
messages = [
{"role": "system", "content": "You are a bot that responds to weather queries."},
{"role": "user", "content": "Hey, what's the temperature in Paris right now?"}
]
inputs = tokenizer.apply_chat_template(messages, tools=[get_current_temperature], add_generation_prompt=True)
如果模型生成了工具調用,你可以將其添加到聊天中:
tool_call = {"name": "get_current_temperature", "arguments": {"location": "Paris, France"}}
messages.append({"role": "assistant", "tool_calls": [{"type": "function", "function": tool_call}]})
然後調用工具並將結果添加到聊天中:
messages.append({"role": "tool", "name": "get_current_temperature", "content": "22.0"})
之後,你可以再次調用generate()
讓模型在聊天中使用工具結果。
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型開發者 | Meta |
模型架構 | Llama 3.1是一個自迴歸語言模型,使用了優化的Transformer架構。微調版本使用了監督微調(SFT)和基於人類反饋的強化學習(RLHF)來與人類的有用性和安全性偏好對齊。 |
支持語言 | 英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語 |
模型發佈日期 | 2024年7月23日 |
狀態 | 這是一個基於離線數據集訓練的靜態模型。隨著我們根據社區反饋改進模型安全性,未來將發佈微調模型的新版本。 |
許可證 | 自定義商業許可證,Llama 3.1社區許可證,可在此處查看。 |
訓練數據
- 概述:Llama 3.1在約15萬億個公開可用數據源的令牌上進行了預訓練。微調數據包括公開可用的指令數據集以及超過2500萬個合成生成的示例。
- 數據新鮮度:預訓練數據截止到2023年12月。
基準測試分數
基礎預訓練模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3 8B | Llama 3.1 8B | Llama 3 70B | Llama 3.1 70B | Llama 3.1 405B |
---|---|---|---|---|---|---|---|---|
通用 | MMLU | 5 | macro_avg/acc_char | 66.7 | 66.7 | 79.5 | 79.3 | 85.2 |
通用 | MMLU-Pro (CoT) | 5 | macro_avg/acc_char | 36.2 | 37.1 | 55.0 | 53.8 | 61.6 |
通用 | AGIEval English | 3 - 5 | average/acc_char | 47.1 | 47.8 | 63.0 | 64.6 | 71.6 |
通用 | CommonSenseQA | 7 | acc_char | 72.6 | 75.0 | 83.8 | 84.1 | 85.8 |
通用 | Winogrande | 5 | acc_char | - | 60.5 | - | 83.3 | 86.7 |
通用 | BIG-Bench Hard (CoT) | 3 | average/em | 61.1 | 64.2 | 81.3 | 81.6 | 85.9 |
通用 | ARC-Challenge | 25 | acc_char | 79.4 | 79.7 | 93.1 | 92.9 | 96.1 |
知識推理 | TriviaQA-Wiki | 5 | em | 78.5 | 77.6 | 89.7 | 89.8 | 91.8 |
閱讀理解 | SQuAD | 1 | em | 76.4 | 77.0 | 85.6 | 81.8 | 89.3 |
閱讀理解 | QuAC (F1) | 1 | f1 | 44.4 | 44.9 | 51.1 | 51.1 | 53.6 |
閱讀理解 | BoolQ | 0 | acc_char | 75.7 | 75.0 | 79.0 | 79.4 | 80.0 |
閱讀理解 | DROP (F1) | 3 | f1 | 58.4 | 59.5 | 79.7 | 79.6 | 84.8 |
指令微調模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3 8B Instruct | Llama 3.1 8B Instruct | Llama 3 70B Instruct | Llama 3.1 70B Instruct | Llama 3.1 405B Instruct |
---|---|---|---|---|---|---|---|---|
通用 | MMLU | 5 | macro_avg/acc | 68.5 | 69.4 | 82.0 | 83.6 | 87.3 |
通用 | MMLU (CoT) | 0 | macro_avg/acc | 65.3 | 73.0 | 80.9 | 86.0 | 88.6 |
通用 | MMLU-Pro (CoT) | 5 | micro_avg/acc_char | 45.5 | 48.3 | 63.4 | 66.4 | 73.3 |
通用 | IFEval | - | - | 76.8 | 80.4 | 82.9 | 87.5 | 88.6 |
推理 | ARC-C | 0 | acc | 82.4 | 83.4 | 94.4 | 94.8 | 96.9 |
推理 | GPQA | 0 | em | 34.6 | 30.4 | 39.5 | 46.7 | 50.7 |
代碼 | HumanEval | 0 | pass@1 | 60.4 | 72.6 | 81.7 | 80.5 | 89.0 |
代碼 | MBPP ++ base version | 0 | pass@1 | 70.6 | 72.8 | 82.5 | 86.0 | 88.6 |
代碼 | Multipl-E HumanEval | 0 | pass@1 | - | 50.8 | - | 65.5 | 75.2 |
代碼 | Multipl-E MBPP | 0 | pass@1 | - | 52.4 | - | 62.0 | 65.7 |
數學 | GSM-8K (CoT) | 8 | em_maj1@1 | 80.6 | 84.5 | 93.0 | 95.1 | 96.8 |
數學 | MATH (CoT) | 0 | final_em | 29.1 | 51.9 | 51.0 | 68.0 | 73.8 |
工具使用 | API-Bank | 0 | acc | 48.3 | 82.6 | 85.1 | 90.0 | 92.0 |
工具使用 | BFCL | 0 | acc | 60.3 | 76.1 | 83.0 | 84.8 | 88.5 |
工具使用 | Gorilla Benchmark API Bench | 0 | acc | 1.7 | 8.2 | 14.7 | 29.7 | 35.3 |
工具使用 | Nexus (0-shot) | 0 | macro_avg/acc | 18.1 | 38.5 | 47.8 | 56.7 | 58.7 |
多語言 | Multilingual MGSM (CoT) | 0 | em | - | 68.9 | - | 86.9 | 91.6 |
多語言基準測試
類別 | 基準測試 | 語言 | Llama 3.1 8B | Llama 3.1 70B | Llama 3.1 405B |
---|---|---|---|---|---|
通用 | MMLU (5-shot, macro_avg/acc) | 葡萄牙語 | 62.12 | 80.13 | 84.95 |
通用 | MMLU (5-shot, macro_avg/acc) | 西班牙語 | 62.45 | 80.05 | 85.08 |
通用 | MMLU (5-shot, macro_avg/acc) | 意大利語 | 61.63 | 80.4 | 85.04 |
通用 | MMLU (5-shot, macro_avg/acc) | 德語 | 60.59 | 79.27 | 84.36 |
通用 | MMLU (5-shot, macro_avg/acc) | 法語 | 62.34 | 79.82 | 84.66 |
通用 | MMLU (5-shot, macro_avg/acc) | 印地語 | 50.88 | 74.52 | 80.31 |
通用 | MMLU (5-shot, macro_avg/acc) | 泰語 | 50.32 | 72.95 | 78.21 |
🔧 技術細節
硬件和軟件
- 訓練因素:我們使用了自定義訓練庫、Meta的自定義GPU集群和生產基礎設施進行預訓練。微調、標註和評估也在生產基礎設施上進行。
- 訓練計算量:在H100 - 80GB(TDP為700W)類型的硬件上累計使用了3930萬GPU小時的計算資源。訓練時間是每個模型訓練所需的總GPU時間,功耗是每個GPU設備的峰值功率容量,並根據電源使用效率進行了調整。
- 訓練溫室氣體排放:訓練的估計總基於位置的溫室氣體排放量為11390噸CO2eq。自2020年以來,Meta在其全球運營中保持了淨零溫室氣體排放,並使用可再生能源滿足了100%的電力需求,因此訓練的總基於市場的溫室氣體排放量為0噸CO2eq。
模型 | 訓練時間 (GPU小時) | 訓練功耗 (W) | 訓練基於位置的溫室氣體排放 (噸CO2eq) | 訓練基於市場的溫室氣體排放 (噸CO2eq) |
---|---|---|---|---|
Llama 3.1 8B | 146萬 | 700 | 420 | 0 |
Llama 3.1 70B | 700萬 | 700 | 2040 | 0 |
Llama 3.1 405B | 3084萬 | 700 | 8930 | 0 |
總計 | 3930萬 | - | 11390 | 0 |
確定訓練能源使用和溫室氣體排放的方法可在此處找到。由於Meta正在公開發布這些模型,其他人不會產生訓練能源使用和溫室氣體排放。
📄 許可證
Llama 3.1使用自定義商業許可證,即Llama 3.1社區許可證,可在此處查看。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98