Meta-Llama-3.1-8B-Instruct-GGUF开源模型 - 免费支持多语言对话交流场景

首页

Meta Llama 3.1 8B Instruct GGUF

由 MaziyarPanahi 开发

Meta Llama 3.1 8B 指令调优模型的 GGUF 量化版本，适用于多语言对话场景

大型语言模型支持多种语言#多语言对话 #128k长文本 #指令微调

下载量 499.87k

发布时间 : 7/23/2024

模型简介

Llama 3.1 是多语言大语言模型，支持英语、德语、法语等8种语言，针对对话场景优化，在行业基准测试中表现优异

模型特点

多语言支持

原生支持8种语言的文本生成和对话

长上下文处理

支持128k tokens的长上下文窗口

GGUF量化格式

提供多种量化版本(2-8位)，便于不同硬件部署

指令优化

经过监督微调(SFT)和RLHF优化，适合对话场景

模型能力

多语言文本生成

代码生成

对话系统

指令跟随

使用案例

对话助手

多语言客服机器人

构建支持多种语言的智能客服系统

在标准测试中优于许多开源和闭源聊天模型

内容生成

多语言内容创作

生成多种语言的营销文案、文章等内容

🚀 Meta-Llama-3.1-8B-Instruct-GGUF

本项目包含用于 meta-llama/Meta-Llama-3.1-8B-Instruct 的 GGUF 格式模型文件，可用于多语言的商业和研究场景。

🚀 快速开始

本仓库包含两个版本的 Meta-Llama-3.1-8B-Instruct，分别适用于 transformers 和原始的 llama 代码库。

使用 transformers

从 transformers >= 4.43.0 版本开始，你可以使用 Transformers 的 pipeline 抽象或借助 Auto 类和 generate() 函数进行对话推理。

确保通过 pip install --upgrade transformers 更新你的 transformers 安装。

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

注意：你还可以在 huggingface-llama-recipes 找到关于如何在本地使用该模型、使用 torch.compile()、辅助生成、量化等方面的详细指南。

使用原始 llama 代码库

请遵循仓库中的说明。

要下载原始检查点，请参考以下使用 huggingface-cli 的示例命令：

huggingface-cli download meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir Meta-Llama-3.1-8B-Instruct

✨ 主要特性

多语言支持：支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等多种语言。
高性能架构：采用优化的 Transformer 架构，使用分组查询注意力（GQA）提高推理可扩展性。
广泛的应用场景：适用于商业和研究，可用于对话、自然语言生成等任务。
安全可靠：经过安全微调，采取多种策略管理信任和安全风险。

📦 安装指南

环境准备

确保你已经安装了 Python 和相关依赖库。可以通过以下命令更新 transformers 库：

pip install --upgrade transformers

模型下载

可以使用 huggingface-cli 下载模型：

huggingface-cli download meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir Meta-Llama-3.1-8B-Instruct

💻 使用示例

基础用法

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

高级用法

在更复杂的场景中，你可以根据具体需求调整参数，例如修改 max_new_tokens 控制生成文本的长度，或者使用不同的 torch_dtype 来优化性能。

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.float16},  # 调整数据类型
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "请介绍一下人工智能的发展趋势。"},
]

outputs = pipeline(
    messages,
    max_new_tokens=512,  # 增加生成文本的长度
)
print(outputs[0]["generated_text"])

📚 详细文档

模型信息

Meta Llama 3.1 是一系列多语言大语言模型（LLMs），包括 8B、70B 和 405B 大小的预训练和指令微调生成模型（文本输入/文本输出）。Llama 3.1 指令微调纯文本模型（8B、70B、405B）针对多语言对话用例进行了优化，在常见行业基准测试中优于许多现有的开源和闭源聊天模型。

属性	详情
模型开发者	Meta
模型架构	自回归语言模型，使用优化的 Transformer 架构。微调版本使用监督微调（SFT）和基于人类反馈的强化学习（RLHF）来符合人类对有用性和安全性的偏好。
训练数据	公开可用在线数据的新组合。微调数据包括公开可用的指令数据集以及超过 2500 万个合成生成的示例。
参数	8B、70B、405B
输入模态	多语言文本
输出模态	多语言文本和代码
上下文长度	128k
GQA	是
令牌计数	超过 15T
知识截止日期	2023 年 12 月
支持语言	英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语
模型发布日期	2024 年 7 月 23 日
状态	基于离线数据集训练的静态模型。未来将根据社区反馈改进模型安全性并发布微调模型的新版本。
许可证	自定义商业许可证，Llama 3.1 社区许可证，可在 https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/LICENSE 查看。

预期用途

预期用例：Llama 3.1 旨在用于多语言的商业和研究。指令微调纯文本模型适用于类似助手的聊天，而预训练模型可用于各种自然语言生成任务。Llama 3.1 模型系列还支持利用其模型输出改进其他模型，包括合成数据生成和蒸馏。Llama 3.1 社区许可证允许这些用例。

超出范围的使用：以任何违反适用法律法规（包括贸易合规法律）的方式使用。以可接受使用政策和 Llama 3.1 社区许可证禁止的任何其他方式使用。在本模型卡片中未明确提及支持的语言之外使用。

⚠️ 重要提示

Llama 3.1 已经在比 8 种支持语言更广泛的语言集合上进行了训练。开发者可以对 Llama 3.1 模型进行微调以支持这 8 种语言之外的语言，前提是他们遵守 Llama 3.1 社区许可证和可接受使用政策，并负责确保以安全和负责任的方式使用 Llama 3.1 处理额外的语言。

硬件和软件

训练因素：使用自定义训练库、Meta 定制的 GPU 集群和生产基础设施进行预训练。微调、注释和评估也在生产基础设施上进行。

训练使用情况：在 H100 - 80GB（TDP 为 700W）类型的硬件上累计使用了 3930 万 GPU 小时的计算资源。训练时间是训练每个模型所需的总 GPU 时间，功耗是每个 GPU 设备的峰值功率容量，并根据功率使用效率进行了调整。

模型	训练时间（GPU 小时）	训练功耗（W）	基于位置的训练温室气体排放量（吨 CO2eq）
Llama 3.1 8B	146 万	700	420
Llama 3.1 70B	700 万	700	2040
Llama 3.1 405B	3084 万	700	8930
总计	3930 万	-	11390

确定训练能源使用和温室气体排放量的方法可在 https://arxiv.org/pdf/2204.05149 找到。由于 Meta 正在公开发布这些模型，其他人不会产生训练能源使用和温室气体排放。

基准测试分数

基础预训练模型

类别	基准测试	样本数	指标	Llama 3 8B	Llama 3.1 8B	Llama 3 70B	Llama 3.1 70B	Llama 3.1 405B
通用	MMLU	5	macro_avg/acc_char	66.7	66.7	79.5	79.3	85.2
通用	MMLU - Pro (CoT)	5	macro_avg/acc_char	36.2	37.1	55.0	53.8	61.6
通用	AGIEval 英语	3 - 5	average/acc_char	47.1	47.8	63.0	64.6	71.6
通用	CommonSenseQA	7	acc_char	72.6	75.0	83.8	84.1	85.8
通用	Winogrande	5	acc_char	-	60.5	-	83.3	86.7
通用	BIG - Bench Hard (CoT)	3	average/em	61.1	64.2	81.3	81.6	85.9
通用	ARC - Challenge	25	acc_char	79.4	79.7	93.1	92.9	96.1
知识推理	TriviaQA - Wiki	5	em	78.5	77.6	89.7	89.8	91.8
阅读理解	SQuAD	1	em	76.4	77.0	85.6	81.8	89.3
阅读理解	QuAC (F1)	1	f1	44.4	44.9	51.1	51.1	53.6
阅读理解	BoolQ	0	acc_char	75.7	75.0	79.0	79.4	80.0
阅读理解	DROP (F1)	3	f1	58.4	59.5	79.7	79.6	84.8

指令微调模型

类别	基准测试	样本数	指标	Llama 3 8B Instruct	Llama 3.1 8B Instruct	Llama 3 70B Instruct	Llama 3.1 70B Instruct	Llama 3.1 405B Instruct
通用	MMLU	5	macro_avg/acc	68.5	69.4	82.0	83.6	87.3
通用	MMLU (CoT)	0	macro_avg/acc	65.3	73.0	80.9	86.0	88.6
通用	MMLU - Pro (CoT)	5	micro_avg/acc_char	45.5	48.3	63.4	66.4	73.3
通用	IFEval	-	-	76.8	80.4	82.9	87.5	88.6
推理	ARC - C	0	acc	82.4	83.4	94.4	94.8	96.9
推理	GPQA	0	em	34.6	30.4	39.5	41.7	50.7
代码	HumanEval	0	pass@1	60.4	72.6	81.7	80.5	89.0
代码	MBPP ++ base version	0	pass@1	70.6	72.8	82.5	86.0	88.6
代码	Multipl - E HumanEval	0	pass@1	-	50.8	-	65.5	75.2
代码	Multipl - E MBPP	0	pass@1	-	52.4	-	62.0	65.7
数学	GSM - 8K (CoT)	8	em_maj1@1	80.6	84.5	93.0	95.1	96.8
数学	MATH (CoT)	0	final_em	29.1	51.9	51.0	68.0	73.8
工具使用	API - Bank	0	acc	48.3	82.6	85.1	90.0	92.0
工具使用	BFCL	0	acc	60.3	76.1	83.0	84.8	88.5
工具使用	Gorilla Benchmark API Bench	0	acc	1.7	8.2	14.7	29.7	35.3
工具使用	Nexus (0 - shot)	0	macro_avg/acc	18.1	38.5	47.8	56.7	58.7
多语言	Multilingual MGSM (CoT)	0	em	-	68.9	-	86.9	91.6

多语言基准测试

类别	基准测试	语言	Llama 3.1 8B	Llama 3.1 70B	Llama 3.1 405B
通用	MMLU (5 - shot, macro_avg/acc)	葡萄牙语	62.12	80.13	84.95
通用	MMLU (5 - shot, macro_avg/acc)	西班牙语	62.45	80.05	85.08
通用	MMLU (5 - shot, macro_avg/acc)	意大利语	61.63	80.4	85.04
通用	MMLU (5 - shot, macro_avg/acc)	德语	60.59	79.27	84.36
通用	MMLU (5 - shot, macro_avg/acc)	法语	62.34	79.82	84.66
通用	MMLU (5 - shot, macro_avg/acc)	印地语	50.88	74.52	80.31
通用	MMLU (5 - shot, macro_avg/acc)	泰语	50.32	72.95	78.21

🔧 技术细节

关于 GGUF

GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日推出的一种新格式，它取代了不再受 llama.cpp 支持的 GGML 格式。

以下是已知支持 GGUF 的客户端和库的不完全列表：

llama.cpp：GGUF 的源项目，提供命令行界面和服务器选项。
llama-cpp-python：一个支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服务器的 Python 库。
LM Studio：一个易于使用且功能强大的本地 GUI，适用于 Windows 和 macOS（Silicon），支持 GPU 加速。截至 2023 年 11 月 27 日，Linux 版本处于测试阶段。
text-generation-webui：最广泛使用的 Web UI，具有许多功能和强大的扩展，支持 GPU 加速。
KoboldCpp：一个功能齐全的 Web UI，支持所有平台和 GPU 架构的 GPU 加速，特别适合讲故事。
GPT4All：一个免费的开源本地运行 GUI，支持 Windows、Linux 和 macOS，具有完整的 GPU 加速。
LoLLMS Web UI：一个很棒的 Web UI，具有许多有趣和独特的功能，包括一个完整的模型库，便于模型选择。
Faraday.dev：一个有吸引力且易于使用的基于角色的聊天 GUI，适用于 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
candle：一个专注于性能的 Rust ML 框架，包括 GPU 支持，易于使用。
ctransformers：一个支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服务器的 Python 库。截至 2023 年 11 月 27 日，ctransformers 已经很长时间没有更新，不支持许多最新的模型。

安全与责任

负责任的发布

Llama 是一种基础技术，旨在用于各种用例。关于 Meta 的 Llama 模型如何负责任地部署的示例，可以在我们的社区故事网页找到。我们的方法是构建最有用的模型，使世界能够从技术力量中受益，通过调整模型安全性以应对通用用例，解决一系列标准的危害。开发者可以根据自己的用例定制安全性，定义自己的策略，并在其 Llama 系统中部署必要的保障措施。Llama 3.1 是按照我们的《负责任使用指南》中概述的最佳实践开发的，你可以参考《负责任使用指南》了解更多信息。

Llama 3.1 指令微调

我们进行安全微调的主要目标是为研究社区提供一个有价值的资源，用于研究安全微调的鲁棒性，同时为开发者提供一个现成的、安全且强大的模型，用于各种应用，以减少开发者部署安全 AI 系统的工作量。有关实施的安全缓解措施的更多详细信息，请阅读 Llama 3 论文。

微调数据：我们采用多方面的数据收集方法，将供应商提供的人类生成数据与合成数据相结合，以减轻潜在的安全风险。我们开发了许多基于大语言模型（LLM）的分类器，使我们能够精心选择高质量的提示和响应，加强数据质量控制。

拒绝和语气：基于我们在 Llama 3 中开始的工作，我们非常重视模型对良性提示的拒绝以及拒绝语气。我们在安全数据策略中包括了边界和对抗性提示，并修改了我们的安全数据响应以遵循语气指南。

Llama 3.1 系统

大语言模型（包括 Llama 3.1）并非旨在单独部署，而是应作为整体 AI 系统的一部分，根据需要添加额外的安全保障措施。开发者在构建代理系统时应部署系统保障措施。保障措施是实现正确的有用性 - 安全性对齐以及减轻系统固有的安全和风险以及模型或系统与外部工具集成时的关键。

作为我们负责任发布方法的一部分，我们为社区提供了保障措施，开发者应在其 Llama 模型或其他大语言模型中部署这些措施，包括 Llama Guard 3、Prompt Guard 和 Code Shield。我们所有的参考实现演示默认包含这些保障措施，以便开发者可以立即从系统级安全中受益。

新功能

请注意，此版本引入了新功能，包括更长的上下文窗口、多语言输入和输出以及开发者可能与第三方工具进行的集成。使用这些新功能除了需要遵循适用于所有生成式 AI 用例的最佳实践外，还需要进行特定的考虑。

工具使用：就像在标准软件开发中一样，开发者负责将大语言模型与他们选择的工具和服务进行集成。他们应该为自己的用例定义明确的策略，并评估他们使用的第三方服务的完整性，以了解使用此功能时的安全和风险限制。请参考《负责任使用指南》以获取安全部署第三方保障措施的最佳实践。

多语言支持：Llama 3.1 除英语外还支持 7 种语言：法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。Llama 可能能够输出超出这些达到安全和有用性性能阈值的语言的文本。我们强烈建议开发者在未根据其政策和《负责任使用指南》中共享的最佳实践实施微调系统控制的情况下，不要使用此模型进行不支持语言的对话。

评估

我们对 Llama 模型进行了常见用例和特定功能的评估。常见用例评估衡量了为最常见构建的应用程序（包括聊天机器人、编码助手、工具调用）构建的系统的安全风险。我们构建了专门的对抗性评估数据集，并评估了由 Llama 模型和 Llama Guard 3 组成的系统，以过滤输入提示和输出响应。在上下文中评估应用程序非常重要，我们建议为你的用例构建专门的评估数据集。如果与应用程序相关，还可以使用 Prompt Guard 和 Code Shield。

功能评估衡量了 Llama 模型特定功能固有的漏洞，为此我们精心设计了专门的基准测试，包括长上下文、多语言、工具调用、编码或记忆。

红队测试：对于这两种情况，我们都进行了定期的红队测试，目标是通过对抗性提示发现风险，并利用这些经验教训改进我们的基准测试和安全微调数据集。

我们早期与关键风险领域的主题专家合作，以了解这些现实世界危害的性质以及此类模型如何可能对社会造成意外危害。基于这些对话，我们为红队制定了一系列对抗性目标，例如提取有害信息或重新编程模型以潜在地造成危害。红队由网络安全、对抗性机器学习、负责任 AI 和完整性方面的专家以及在特定地理市场的完整性问题方面有背景的多语言内容专家组成。

关键和其他风险

我们特别致力于减轻以下关键风险领域：

CBRNE（化学、生物、放射性、核和爆炸物材料）有用性：为了评估与化学和生物武器扩散相关的风险，我们进行了提升测试，旨在评估使用 Llama 3.1 模型是否会显著增强恶意行为者计划或实施使用此类武器的攻击的能力。
儿童安全：我们使用专家团队进行了儿童安全风险评估，以评估模型产生可能导致儿童安全风险的输出的能力，并通过微调提供必要和适当的风险缓解措施。我们利用这些专家红队测试会话，通过 Llama 3 模型开发扩展了我们评估基准的覆盖范围。对于 Llama 3，我们使用基于目标的方法进行了新的深入会话，以评估模型在多个攻击向量上的风险，包括 Llama 3 训练的额外语言。我们还与内容专家合作进行红队测试，评估潜在违规内容，同时考虑特定市场的细微差别或经验。
网络攻击启用：我们的网络攻击提升研究调查了大语言模型是否可以在技能水平和速度方面增强人类在黑客任务中的能力。我们的攻击自动化研究专注于评估大语言模型作为自主代理在网络进攻行动中的能力，特别是在勒索软件攻击的背景下。此评估与之前将大语言模型视为交互式助手的研究不同。主要目标是评估这些模型是否可以有效地作为独立代理执行复杂的网络攻击而无需人类干预。我们对 Llama - 3.1 - 405B 对网络攻击者的社会工程提升的研究旨在评估 AI 模型在协助网络威胁行为者进行鱼叉式网络钓鱼活动中的有效性。有关更多信息，请阅读我们的 Llama 3.1 网络安全白皮书。

社区

生成式 AI 安全需要专业知识和工具，我们相信开放社区的力量可以加速其发展。我们是开放联盟的积极成员，包括 AI 联盟、AI 合作组织和 MLCommons，积极为安全标准化和透明度做出贡献。我们鼓励社区采用 MLCommons 概念验证评估等分类法，以促进安全和内容评估方面的合作和透明度。我们的 Purple Llama 工具已开源供社区使用，并广泛分发给包括云服务提供商在内的生态系统合作伙伴。我们鼓励社区为我们的 GitHub 仓库做出贡献。

我们还设立了 Llama 影响赠款计划，以识别和支持 Meta 的 Llama 模型在三个类别中的最有吸引力的应用：教育、气候和开放创新。从数百份申请中选出的 20 名决赛选手可以在这里找到。

最后，我们建立了一系列资源，包括输出报告机制和漏洞赏金计划，以在社区的帮助下不断改进 Llama 技术。