Llama 3.1 8B Instruct GGUF
Meta Llama 3.1系列是多语言大语言模型(LLMs)的集合,包括8B、70B和405B大小的预训练和指令调优生成模型。8B版本针对多语言对话用例进行了优化,在常见基准测试中表现优异。
下载量 4,071
发布时间 : 4/23/2025
模型简介
Llama 3.1是一种自回归语言模型,使用优化的Transformer架构。指令调优版本通过监督微调(SFT)和人类反馈强化学习(RLHF)对齐人类偏好,提高帮助性和安全性。
模型特点
多语言支持
支持8种主要语言,包括英语、德语、法语等,适合国际化应用场景。
长上下文处理
支持128k令牌的上下文长度,适合处理长文档和复杂对话。
高效推理
采用分组查询注意力(GQA)机制,提高推理效率。
工具使用能力
支持工具调用和函数执行,可扩展模型功能。
模型能力
多语言文本生成
对话系统
代码生成
工具调用
长文档处理
使用案例
对话系统
多语言客服机器人
构建支持多种语言的智能客服系统
在8种语言上表现优异
个人助手
开发类似助手的聊天应用
通过RLHF优化对话质量
内容生成
多语言内容创作
生成多种语言的营销文案、文章等
保持语言风格一致性
🚀 Llama 3.1模型
Llama 3.1是Meta推出的多语言大语言模型集合,包含8B、70B和405B等不同规模的预训练和指令微调生成模型。该模型在多语言对话场景中表现出色,在常见行业基准测试中超越了许多开源和闭源聊天模型。
🚀 快速开始
- 查看我们关于Llama 3.1微调支持的博客:unsloth.ai/blog/llama4
- 在文档中查看我们其余的微调笔记本。
- 将微调后的模型导出为GGUF、Ollama、llama.cpp、vLLM或HF格式。
查看我们的模型集合,获取包括4位和16位格式的Llama 3.1版本。
Unsloth Dynamic v2.0实现了卓越的准确性,性能优于其他领先的量化方法。
✨ 主要特性
- 多语言支持:支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
- 高性能:在常见行业基准测试中表现出色,超越了许多开源和闭源聊天模型。
- 多种使用方式:支持使用
transformers
库和原始llama
代码库进行推理。 - 工具使用支持:支持多种工具使用格式,可通过聊天模板实现工具调用。
📦 安装指南
使用transformers
从transformers >= 4.43.0
版本开始,你可以使用Transformers的pipeline
抽象或借助Auto类和generate()
函数进行对话推理。
确保通过pip install --upgrade transformers
更新你的transformers库。
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
使用原始llama
代码库
请遵循仓库中的说明。
要下载原始检查点,请使用以下huggingface-cli
命令:
huggingface-cli download meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir Meta-Llama-3.1-8B-Instruct
💻 使用示例
基础用法
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
高级用法 - 工具使用
# 首先,定义一个工具
def get_current_temperature(location: str) -> float:
"""
获取指定位置的当前温度。
参数:
location: 要获取温度的位置,格式为 "城市, 国家"
返回:
指定位置的当前温度,以浮点数表示。
"""
return 22. # 实际函数应获取真实的温度!
# 接下来,创建一个聊天并应用聊天模板
messages = [
{"role": "system", "content": "You are a bot that responds to weather queries."},
{"role": "user", "content": "Hey, what's the temperature in Paris right now?"}
]
inputs = tokenizer.apply_chat_template(messages, tools=[get_current_temperature], add_generation_prompt=True)
如果模型生成了工具调用,你可以将其添加到聊天中:
tool_call = {"name": "get_current_temperature", "arguments": {"location": "Paris, France"}}
messages.append({"role": "assistant", "tool_calls": [{"type": "function", "function": tool_call}]})
然后调用工具并将结果添加到聊天中:
messages.append({"role": "tool", "name": "get_current_temperature", "content": "22.0"})
之后,你可以再次调用generate()
让模型在聊天中使用工具结果。
📚 详细文档
模型信息
属性 | 详情 |
---|---|
模型开发者 | Meta |
模型架构 | Llama 3.1是一个自回归语言模型,使用了优化的Transformer架构。微调版本使用了监督微调(SFT)和基于人类反馈的强化学习(RLHF)来与人类的有用性和安全性偏好对齐。 |
支持语言 | 英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语 |
模型发布日期 | 2024年7月23日 |
状态 | 这是一个基于离线数据集训练的静态模型。随着我们根据社区反馈改进模型安全性,未来将发布微调模型的新版本。 |
许可证 | 自定义商业许可证,Llama 3.1社区许可证,可在此处查看。 |
训练数据
- 概述:Llama 3.1在约15万亿个公开可用数据源的令牌上进行了预训练。微调数据包括公开可用的指令数据集以及超过2500万个合成生成的示例。
- 数据新鲜度:预训练数据截止到2023年12月。
基准测试分数
基础预训练模型
类别 | 基准测试 | 样本数 | 指标 | Llama 3 8B | Llama 3.1 8B | Llama 3 70B | Llama 3.1 70B | Llama 3.1 405B |
---|---|---|---|---|---|---|---|---|
通用 | MMLU | 5 | macro_avg/acc_char | 66.7 | 66.7 | 79.5 | 79.3 | 85.2 |
通用 | MMLU-Pro (CoT) | 5 | macro_avg/acc_char | 36.2 | 37.1 | 55.0 | 53.8 | 61.6 |
通用 | AGIEval English | 3 - 5 | average/acc_char | 47.1 | 47.8 | 63.0 | 64.6 | 71.6 |
通用 | CommonSenseQA | 7 | acc_char | 72.6 | 75.0 | 83.8 | 84.1 | 85.8 |
通用 | Winogrande | 5 | acc_char | - | 60.5 | - | 83.3 | 86.7 |
通用 | BIG-Bench Hard (CoT) | 3 | average/em | 61.1 | 64.2 | 81.3 | 81.6 | 85.9 |
通用 | ARC-Challenge | 25 | acc_char | 79.4 | 79.7 | 93.1 | 92.9 | 96.1 |
知识推理 | TriviaQA-Wiki | 5 | em | 78.5 | 77.6 | 89.7 | 89.8 | 91.8 |
阅读理解 | SQuAD | 1 | em | 76.4 | 77.0 | 85.6 | 81.8 | 89.3 |
阅读理解 | QuAC (F1) | 1 | f1 | 44.4 | 44.9 | 51.1 | 51.1 | 53.6 |
阅读理解 | BoolQ | 0 | acc_char | 75.7 | 75.0 | 79.0 | 79.4 | 80.0 |
阅读理解 | DROP (F1) | 3 | f1 | 58.4 | 59.5 | 79.7 | 79.6 | 84.8 |
指令微调模型
类别 | 基准测试 | 样本数 | 指标 | Llama 3 8B Instruct | Llama 3.1 8B Instruct | Llama 3 70B Instruct | Llama 3.1 70B Instruct | Llama 3.1 405B Instruct |
---|---|---|---|---|---|---|---|---|
通用 | MMLU | 5 | macro_avg/acc | 68.5 | 69.4 | 82.0 | 83.6 | 87.3 |
通用 | MMLU (CoT) | 0 | macro_avg/acc | 65.3 | 73.0 | 80.9 | 86.0 | 88.6 |
通用 | MMLU-Pro (CoT) | 5 | micro_avg/acc_char | 45.5 | 48.3 | 63.4 | 66.4 | 73.3 |
通用 | IFEval | - | - | 76.8 | 80.4 | 82.9 | 87.5 | 88.6 |
推理 | ARC-C | 0 | acc | 82.4 | 83.4 | 94.4 | 94.8 | 96.9 |
推理 | GPQA | 0 | em | 34.6 | 30.4 | 39.5 | 46.7 | 50.7 |
代码 | HumanEval | 0 | pass@1 | 60.4 | 72.6 | 81.7 | 80.5 | 89.0 |
代码 | MBPP ++ base version | 0 | pass@1 | 70.6 | 72.8 | 82.5 | 86.0 | 88.6 |
代码 | Multipl-E HumanEval | 0 | pass@1 | - | 50.8 | - | 65.5 | 75.2 |
代码 | Multipl-E MBPP | 0 | pass@1 | - | 52.4 | - | 62.0 | 65.7 |
数学 | GSM-8K (CoT) | 8 | em_maj1@1 | 80.6 | 84.5 | 93.0 | 95.1 | 96.8 |
数学 | MATH (CoT) | 0 | final_em | 29.1 | 51.9 | 51.0 | 68.0 | 73.8 |
工具使用 | API-Bank | 0 | acc | 48.3 | 82.6 | 85.1 | 90.0 | 92.0 |
工具使用 | BFCL | 0 | acc | 60.3 | 76.1 | 83.0 | 84.8 | 88.5 |
工具使用 | Gorilla Benchmark API Bench | 0 | acc | 1.7 | 8.2 | 14.7 | 29.7 | 35.3 |
工具使用 | Nexus (0-shot) | 0 | macro_avg/acc | 18.1 | 38.5 | 47.8 | 56.7 | 58.7 |
多语言 | Multilingual MGSM (CoT) | 0 | em | - | 68.9 | - | 86.9 | 91.6 |
多语言基准测试
类别 | 基准测试 | 语言 | Llama 3.1 8B | Llama 3.1 70B | Llama 3.1 405B |
---|---|---|---|---|---|
通用 | MMLU (5-shot, macro_avg/acc) | 葡萄牙语 | 62.12 | 80.13 | 84.95 |
通用 | MMLU (5-shot, macro_avg/acc) | 西班牙语 | 62.45 | 80.05 | 85.08 |
通用 | MMLU (5-shot, macro_avg/acc) | 意大利语 | 61.63 | 80.4 | 85.04 |
通用 | MMLU (5-shot, macro_avg/acc) | 德语 | 60.59 | 79.27 | 84.36 |
通用 | MMLU (5-shot, macro_avg/acc) | 法语 | 62.34 | 79.82 | 84.66 |
通用 | MMLU (5-shot, macro_avg/acc) | 印地语 | 50.88 | 74.52 | 80.31 |
通用 | MMLU (5-shot, macro_avg/acc) | 泰语 | 50.32 | 72.95 | 78.21 |
🔧 技术细节
硬件和软件
- 训练因素:我们使用了自定义训练库、Meta的自定义GPU集群和生产基础设施进行预训练。微调、标注和评估也在生产基础设施上进行。
- 训练计算量:在H100 - 80GB(TDP为700W)类型的硬件上累计使用了3930万GPU小时的计算资源。训练时间是每个模型训练所需的总GPU时间,功耗是每个GPU设备的峰值功率容量,并根据电源使用效率进行了调整。
- 训练温室气体排放:训练的估计总基于位置的温室气体排放量为11390吨CO2eq。自2020年以来,Meta在其全球运营中保持了净零温室气体排放,并使用可再生能源满足了100%的电力需求,因此训练的总基于市场的温室气体排放量为0吨CO2eq。
模型 | 训练时间 (GPU小时) | 训练功耗 (W) | 训练基于位置的温室气体排放 (吨CO2eq) | 训练基于市场的温室气体排放 (吨CO2eq) |
---|---|---|---|---|
Llama 3.1 8B | 146万 | 700 | 420 | 0 |
Llama 3.1 70B | 700万 | 700 | 2040 | 0 |
Llama 3.1 405B | 3084万 | 700 | 8930 | 0 |
总计 | 3930万 | - | 11390 | 0 |
确定训练能源使用和温室气体排放的方法可在此处找到。由于Meta正在公开发布这些模型,其他人不会产生训练能源使用和温室气体排放。
📄 许可证
Llama 3.1使用自定义商业许可证,即Llama 3.1社区许可证,可在此处查看。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98