Llama-3.1-8B-Instruct-GGUF开源大语言模型 - 优化多语言对话，测试表现佳

首页

Llama 3.1 8B Instruct GGUF

由 unsloth 开发

Meta Llama 3.1系列是多语言大语言模型（LLMs）的集合，包括8B、70B和405B大小的预训练和指令调优生成模型。8B版本针对多语言对话用例进行了优化，在常见基准测试中表现优异。

大型语言模型支持多种语言#多语言对话 #128k长文本处理 #商业助手

下载量 4,071

发布时间 : 4/23/2025

模型简介

Llama 3.1是一种自回归语言模型，使用优化的Transformer架构。指令调优版本通过监督微调（SFT）和人类反馈强化学习（RLHF）对齐人类偏好，提高帮助性和安全性。

模型特点

多语言支持

支持8种主要语言，包括英语、德语、法语等，适合国际化应用场景。

长上下文处理

支持128k令牌的上下文长度，适合处理长文档和复杂对话。

高效推理

采用分组查询注意力（GQA）机制，提高推理效率。

工具使用能力

支持工具调用和函数执行，可扩展模型功能。

模型能力

多语言文本生成

对话系统

代码生成

工具调用

长文档处理

使用案例

对话系统

多语言客服机器人

构建支持多种语言的智能客服系统

在8种语言上表现优异

个人助手

开发类似助手的聊天应用

通过RLHF优化对话质量

内容生成

多语言内容创作

生成多种语言的营销文案、文章等

保持语言风格一致性

🚀 Llama 3.1模型

Llama 3.1是Meta推出的多语言大语言模型集合，包含8B、70B和405B等不同规模的预训练和指令微调生成模型。该模型在多语言对话场景中表现出色，在常见行业基准测试中超越了许多开源和闭源聊天模型。

🚀 快速开始

查看我们关于Llama 3.1微调支持的博客：unsloth.ai/blog/llama4
在文档中查看我们其余的微调笔记本。
将微调后的模型导出为GGUF、Ollama、llama.cpp、vLLM或HF格式。

查看我们的模型集合，获取包括4位和16位格式的Llama 3.1版本。

Unsloth Dynamic v2.0实现了卓越的准确性，性能优于其他领先的量化方法。

✨ 主要特性

多语言支持：支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
高性能：在常见行业基准测试中表现出色，超越了许多开源和闭源聊天模型。
多种使用方式：支持使用transformers库和原始llama代码库进行推理。
工具使用支持：支持多种工具使用格式，可通过聊天模板实现工具调用。

📦 安装指南

使用transformers

从transformers >= 4.43.0版本开始，你可以使用Transformers的pipeline抽象或借助Auto类和generate()函数进行对话推理。

确保通过pip install --upgrade transformers更新你的transformers库。

import transformers
import torch
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)
messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

使用原始`llama`代码库

请遵循仓库中的说明。

要下载原始检查点，请使用以下huggingface-cli命令：

huggingface-cli download meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir Meta-Llama-3.1-8B-Instruct

💻 使用示例

基础用法

import transformers
import torch
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)
messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

高级用法 - 工具使用

# 首先，定义一个工具
def get_current_temperature(location: str) -> float:
    """
    获取指定位置的当前温度。
    
    参数:
        location: 要获取温度的位置，格式为 "城市, 国家"
    返回:
        指定位置的当前温度，以浮点数表示。
    """
    return 22.  # 实际函数应获取真实的温度！
# 接下来，创建一个聊天并应用聊天模板
messages = [
  {"role": "system", "content": "You are a bot that responds to weather queries."},
  {"role": "user", "content": "Hey, what's the temperature in Paris right now?"}
]
inputs = tokenizer.apply_chat_template(messages, tools=[get_current_temperature], add_generation_prompt=True)

如果模型生成了工具调用，你可以将其添加到聊天中：

tool_call = {"name": "get_current_temperature", "arguments": {"location": "Paris, France"}}
messages.append({"role": "assistant", "tool_calls": [{"type": "function", "function": tool_call}]})

然后调用工具并将结果添加到聊天中：

messages.append({"role": "tool", "name": "get_current_temperature", "content": "22.0"})

之后，你可以再次调用generate()让模型在聊天中使用工具结果。

📚 详细文档

模型信息

属性	详情
模型开发者	Meta
模型架构	Llama 3.1是一个自回归语言模型，使用了优化的Transformer架构。微调版本使用了监督微调（SFT）和基于人类反馈的强化学习（RLHF）来与人类的有用性和安全性偏好对齐。
支持语言	英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语
模型发布日期	2024年7月23日
状态	这是一个基于离线数据集训练的静态模型。随着我们根据社区反馈改进模型安全性，未来将发布微调模型的新版本。
许可证	自定义商业许可证，Llama 3.1社区许可证，可在此处查看。

训练数据

概述：Llama 3.1在约15万亿个公开可用数据源的令牌上进行了预训练。微调数据包括公开可用的指令数据集以及超过2500万个合成生成的示例。
数据新鲜度：预训练数据截止到2023年12月。

基准测试分数

基础预训练模型

类别	基准测试	样本数	指标	Llama 3 8B	Llama 3.1 8B	Llama 3 70B	Llama 3.1 70B	Llama 3.1 405B
通用	MMLU	5	macro_avg/acc_char	66.7	66.7	79.5	79.3	85.2
通用	MMLU-Pro (CoT)	5	macro_avg/acc_char	36.2	37.1	55.0	53.8	61.6
通用	AGIEval English	3 - 5	average/acc_char	47.1	47.8	63.0	64.6	71.6
通用	CommonSenseQA	7	acc_char	72.6	75.0	83.8	84.1	85.8
通用	Winogrande	5	acc_char	-	60.5	-	83.3	86.7
通用	BIG-Bench Hard (CoT)	3	average/em	61.1	64.2	81.3	81.6	85.9
通用	ARC-Challenge	25	acc_char	79.4	79.7	93.1	92.9	96.1
知识推理	TriviaQA-Wiki	5	em	78.5	77.6	89.7	89.8	91.8
阅读理解	SQuAD	1	em	76.4	77.0	85.6	81.8	89.3
阅读理解	QuAC (F1)	1	f1	44.4	44.9	51.1	51.1	53.6
阅读理解	BoolQ	0	acc_char	75.7	75.0	79.0	79.4	80.0
阅读理解	DROP (F1)	3	f1	58.4	59.5	79.7	79.6	84.8

指令微调模型

类别	基准测试	样本数	指标	Llama 3 8B Instruct	Llama 3.1 8B Instruct	Llama 3 70B Instruct	Llama 3.1 70B Instruct	Llama 3.1 405B Instruct
通用	MMLU	5	macro_avg/acc	68.5	69.4	82.0	83.6	87.3
通用	MMLU (CoT)	0	macro_avg/acc	65.3	73.0	80.9	86.0	88.6
通用	MMLU-Pro (CoT)	5	micro_avg/acc_char	45.5	48.3	63.4	66.4	73.3
通用	IFEval	-	-	76.8	80.4	82.9	87.5	88.6
推理	ARC-C	0	acc	82.4	83.4	94.4	94.8	96.9
推理	GPQA	0	em	34.6	30.4	39.5	46.7	50.7
代码	HumanEval	0	pass@1	60.4	72.6	81.7	80.5	89.0
代码	MBPP ++ base version	0	pass@1	70.6	72.8	82.5	86.0	88.6
代码	Multipl-E HumanEval	0	pass@1	-	50.8	-	65.5	75.2
代码	Multipl-E MBPP	0	pass@1	-	52.4	-	62.0	65.7
数学	GSM-8K (CoT)	8	em_maj1@1	80.6	84.5	93.0	95.1	96.8
数学	MATH (CoT)	0	final_em	29.1	51.9	51.0	68.0	73.8
工具使用	API-Bank	0	acc	48.3	82.6	85.1	90.0	92.0
工具使用	BFCL	0	acc	60.3	76.1	83.0	84.8	88.5
工具使用	Gorilla Benchmark API Bench	0	acc	1.7	8.2	14.7	29.7	35.3
工具使用	Nexus (0-shot)	0	macro_avg/acc	18.1	38.5	47.8	56.7	58.7
多语言	Multilingual MGSM (CoT)	0	em	-	68.9	-	86.9	91.6

多语言基准测试

类别	基准测试	语言	Llama 3.1 8B	Llama 3.1 70B	Llama 3.1 405B
通用	MMLU (5-shot, macro_avg/acc)	葡萄牙语	62.12	80.13	84.95
通用	MMLU (5-shot, macro_avg/acc)	西班牙语	62.45	80.05	85.08
通用	MMLU (5-shot, macro_avg/acc)	意大利语	61.63	80.4	85.04
通用	MMLU (5-shot, macro_avg/acc)	德语	60.59	79.27	84.36
通用	MMLU (5-shot, macro_avg/acc)	法语	62.34	79.82	84.66
通用	MMLU (5-shot, macro_avg/acc)	印地语	50.88	74.52	80.31
通用	MMLU (5-shot, macro_avg/acc)	泰语	50.32	72.95	78.21

🔧 技术细节

硬件和软件

训练因素：我们使用了自定义训练库、Meta的自定义GPU集群和生产基础设施进行预训练。微调、标注和评估也在生产基础设施上进行。
训练计算量：在H100 - 80GB（TDP为700W）类型的硬件上累计使用了3930万GPU小时的计算资源。训练时间是每个模型训练所需的总GPU时间，功耗是每个GPU设备的峰值功率容量，并根据电源使用效率进行了调整。
训练温室气体排放：训练的估计总基于位置的温室气体排放量为11390吨CO2eq。自2020年以来，Meta在其全球运营中保持了净零温室气体排放，并使用可再生能源满足了100%的电力需求，因此训练的总基于市场的温室气体排放量为0吨CO2eq。