Meta-Llama-3-8B-Instruct-GGUF开源模型 - 免费本地部署实现高效推理

首页

Meta Llama 3 8B Instruct GGUF

由 LiteLLMs 开发

Meta-Llama-3-8B-Instruct的GGUF量化版本，适用于本地部署和推理

大型语言模型英语开源协议:其他 #8B参数指令微调 #多轮对话优化 #GGUF高效推理

下载量 76

发布时间 : 4/18/2024

模型简介

这是Meta发布的Llama 3系列8B参数指令调优模型的GGUF格式版本，优化了在消费级硬件上的运行效率

模型特点

高效量化

提供多种量化级别(Q2_K到Q6_K)，平衡模型大小和推理质量

本地部署

GGUF格式支持在消费级硬件上高效运行

长上下文支持

支持8K tokens的上下文长度

多平台兼容

支持多种运行环境包括llama.cpp、LM Studio等

模型能力

对话生成

文本补全

指令跟随

创意写作

使用案例

内容创作

故事生成

生成创意故事和小说内容

可生成连贯、富有创意的叙事文本

文章写作

辅助撰写各类文章和报告

能根据提示生成结构合理的文章

编程辅助

代码生成

根据描述生成代码片段

能生成多种编程语言的代码

🚀 Meta-Llama-3-8B-Instruct-GGUF

本项目提供了 Meta-Llama-3-8B-Instruct 模型的 GGUF 格式文件，方便用户在多种客户端和库中使用该模型。

🚀 快速开始

关于 GGUF

GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日推出的一种新格式，它取代了不再受 llama.cpp 支持的 GGML 格式。以下是一些已知支持 GGUF 的客户端和库：

llama.cpp：GGUF 的源项目，提供命令行界面（CLI）和服务器选项。
text-generation-webui：最广泛使用的 Web UI，具有众多功能和强大的扩展，支持 GPU 加速。
Ollama：一个轻量级且可扩展的框架，用于在本地构建和运行语言模型，具有简单的 API 用于创建、管理和执行模型，以及一个预构建模型库，可用于各种应用程序。
KoboldCpp：一个全面的 Web UI，支持所有平台和架构的 GPU 加速，尤其以讲故事功能著称。
GPT4All：一个免费的开源 GUI，可在本地运行，支持 Windows、Linux 和 macOS，具备全 GPU 加速功能。
LM Studio：适用于 Windows 和 macOS（Silicon）的直观且强大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一个值得注意的 Web UI，具有各种独特功能，包括一个全面的模型库，便于选择模型。
Faraday.dev：一个有吸引力、用户友好的基于角色的聊天 GUI，适用于 Windows 和 macOS（Silicon 和 Intel），也提供 GPU 加速。
llama-cpp-python：一个配备 GPU 加速、支持 LangChain 和 OpenAI 兼容 API 服务器的 Python 库。
candle：一个基于 Rust 的机器学习框架，注重性能，包括 GPU 支持，设计用于易于使用。
ctransformers：一个具有 GPU 加速、支持 LangChain 和 OpenAI 兼容 AI 服务器的 Python 库。
localGPT：一个开源项目，支持与文档进行私密对话。

量化方法说明

点击查看详情

新的量化方法如下：

GGML_TYPE_Q2_K - “类型 1” 2 位量化，超级块包含 16 个块，每个块有 16 个权重。块的缩放和最小值用 4 位量化。最终每个权重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K - “类型 0” 3 位量化，超级块包含 16 个块，每个块有 16 个权重。缩放用 6 位量化。最终每个权重使用 3.4375 bpw。
GGML_TYPE_Q4_K - “类型 1” 4 位量化，超级块包含 8 个块，每个块有 32 个权重。缩放和最小值用 6 位量化。最终每个权重使用 4.5 bpw。
GGML_TYPE_Q5_K - “类型 1” 5 位量化。与 GGML_TYPE_Q4_K 具有相同的超级块结构，每个权重使用 5.5 bpw。
GGML_TYPE_Q6_K - “类型 0” 6 位量化。超级块有 16 个块，每个块有 16 个权重。缩放用 8 位量化。最终每个权重使用 6.5625 bpw。

如何下载 GGUF 文件

手动下载注意事项：你几乎不需要克隆整个仓库！这里提供了多种不同的量化格式，大多数用户只需要选择并下载单个文件夹。

以下客户端/库会自动为你下载模型，并提供可用模型列表供你选择：

LM Studio
LoLLMS Web UI
Faraday.dev

在 `text-generation-webui` 中

在“下载模型”选项下，你可以输入模型仓库地址：LiteLLMs/Meta-Llama-3-8B-Instruct-GGUF，然后在下方输入要下载的具体文件名，例如：Q4_0/Q4_0-00001-of-00009.gguf。

然后点击“下载”。

在命令行中，一次性下载多个文件

我推荐使用 huggingface-hub Python 库：

pip3 install huggingface-hub

然后你可以使用以下命令将任何单个模型文件高速下载到当前目录：

huggingface-cli download LiteLLMs/Meta-Llama-3-8B-Instruct-GGUF Q4_0/Q4_0-00001-of-00009.gguf --local-dir . --local-dir-use-symlinks False

更高级的 huggingface-cli 下载用法（点击查看）

你也可以使用通配符一次性下载多个文件：

huggingface-cli download LiteLLMs/Meta-Llama-3-8B-Instruct-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

有关使用 huggingface-cli 下载的更多文档，请参阅：HF -> Hub Python 库 -> 下载文件 -> 从 CLI 下载。

为了在高速连接（1Gbit/s 或更高）上加速下载，请安装 hf_transfer：

pip3 install huggingface_hub[hf_transfer]

并将环境变量 HF_HUB_ENABLE_HF_TRANSFER 设置为 1：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download LiteLLMs/Meta-Llama-3-8B-Instruct-GGUF Q4_0/Q4_0-00001-of-00009.gguf --local-dir . --local-dir-use-symlinks False

Windows 命令行用户：你可以在下载命令前运行 set HF_HUB_ENABLE_HF_TRANSFER=1 来设置环境变量。

示例 `llama.cpp` 命令

确保你使用的 llama.cpp 版本是 d0cee0d 或更新的版本。

./main -ngl 35 -m Q4_0/Q4_0-00001-of-00009.gguf --color -c 8192 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<PROMPT>"

将 -ngl 32 更改为要卸载到 GPU 的层数。如果你没有 GPU 加速，请删除该参数。

将 -c 8192 更改为所需的序列长度。对于扩展序列模型（例如 8K、16K、32K），必要的 RoPE 缩放参数会从 GGUF 文件中读取，并由 llama.cpp 自动设置。请注意，更长的序列长度需要更多的资源，因此你可能需要减小该值。

如果你想进行聊天式对话，请将 -p <PROMPT> 参数替换为 -i -ins。

有关其他参数及其使用方法，请参考 llama.cpp 文档。

如何在 `text-generation-webui` 中运行

更多说明可以在 text-generation-webui 文档中找到，地址为：text-generation-webui/docs/04 ‐ Model Tab.md。

如何从 Python 代码中运行

你可以使用 llama-cpp-python 或 ctransformers 库从 Python 中使用 GGUF 模型。请注意，在撰写本文时（2023 年 11 月 27 日），ctransformers 已有一段时间未更新，并且与一些最新模型不兼容。因此，我建议你使用 llama-cpp-python。

如何在 Python 代码中加载此模型，使用 llama-cpp-python

完整文档请参阅：llama-cpp-python 文档。

首先安装包

根据你的系统，运行以下命令之一：

# 无 GPU 加速的基础 ctransformers
pip install llama-cpp-python
# 带有 NVidia CUDA 加速
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python
# 或者带有 OpenBLAS 加速
CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python
# 或者带有 CLBLast 加速
CMAKE_ARGS="-DLLAMA_CLBLAST=on" pip install llama-cpp-python
# 或者带有 AMD ROCm GPU 加速（仅适用于 Linux）
CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip install llama-cpp-python
# 或者带有 Metal GPU 加速（仅适用于 macOS 系统）
CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python
# 在 Windows 中，在 PowerShell 中设置变量 CMAKE_ARGS，遵循以下格式；例如对于 NVidia CUDA：
$env:CMAKE_ARGS = "-DLLAMA_OPENBLAS=on"
pip install llama-cpp-python

简单的 llama-cpp-python 示例代码

from llama_cpp import Llama
# 将 gpu_layers 设置为要卸载到 GPU 的层数。如果你的系统没有 GPU 加速，请将其设置为 0。
llm = Llama(
  model_path="./Q4_0/Q4_0-00001-of-00009.gguf",  # 首先下载模型文件
  n_ctx=32768,  # 要使用的最大序列长度 - 请注意，更长的序列长度需要更多的资源
  n_threads=8,            # 要使用的 CPU 线程数，根据你的系统和性能进行调整
  n_gpu_layers=35         # 要卸载到 GPU 的层数，如果你有 GPU 加速可用
)
# 简单的推理示例
output = llm(
  "<PROMPT>", # 提示
  max_tokens=512,  # 生成最多 512 个令牌
  stop=["</s>"],   # 示例停止令牌 - 不一定适用于此特定模型！使用前请检查。
  echo=True        # 是否回显提示
)
# 聊天完成 API
llm = Llama(model_path="./Q4_0/Q4_0-00001-of-00009.gguf", chat_format="llama-2")  # 根据你使用的模型设置 chat_format
llm.create_chat_completion(
    messages = [
        {"role": "system", "content": "You are a story writing assistant."},
        {
            "role": "user",
            "content": "Write a story about llamas."
        }
    ]
)

如何与 LangChain 一起使用

以下是使用 llama-cpp-python 和 ctransformers 与 LangChain 的指南：

✨ 主要特性

模型详情

Meta 开发并发布了 Meta Llama 3 系列大语言模型（LLM），这是一组包含 80 亿和 700 亿参数的预训练和指令微调生成文本模型。Llama 3 指令微调模型针对对话用例进行了优化，在常见的行业基准测试中优于许多可用的开源聊天模型。此外，在开发这些模型时，我们非常注重优化其实用性和安全性。

属性	详情
模型开发者	Meta
变体	Llama 3 有两种大小——80 亿和 700 亿参数——包括预训练和指令微调变体。
输入	模型仅接受文本输入。
输出	模型仅生成文本和代码。
模型架构	Llama 3 是一种自回归语言模型，使用优化的变压器架构。微调版本使用监督微调（SFT）和基于人类反馈的强化学习（RLHF）来符合人类对实用性和安全性的偏好。

	训练数据	参数	上下文长度	GQA	令牌计数	知识截止日期
Llama 3	一种新的公开可用在线数据组合。	80 亿	8k	是	超过 15T	2023 年 3 月
		700 亿	8k	是		2023 年 12 月

Llama 3 模型系列：令牌计数仅指预训练数据。80 亿和 700 亿参数版本都使用分组查询注意力（GQA）来提高推理可扩展性。

模型发布日期：2024 年 4 月 18 日。

状态：这是一个基于离线数据集训练的静态模型。随着我们根据社区反馈改进模型安全性，未来将发布微调模型的更新版本。

许可证：可在 https://llama.meta.com/llama3/license 获取自定义商业许可证。

预期用途

预期用例：Llama 3 旨在用于英语的商业和研究用途。指令微调模型适用于类似助手的聊天，而预训练模型可用于各种自然语言生成任务。

超出范围的用途：以任何违反适用法律法规（包括贸易合规法律）的方式使用。以《可接受使用政策》和《Llama 3 社区许可证》禁止的任何其他方式使用。使用除英语以外的语言**。

注意：开发者可以对 Llama 3 模型进行微调以支持英语以外的语言，前提是他们遵守《Llama 3 社区许可证》和《可接受使用政策》。

训练数据

概述：Llama 3 在超过 15 万亿个来自公开可用来源的令牌数据上进行了预训练。微调数据包括公开可用的指令数据集，以及超过 1000 万个手动标注的示例。预训练和微调数据集均不包含 Meta 用户数据。

数据新鲜度：预训练数据的截止日期分别为 70 亿参数模型的 2023 年 3 月和 700 亿参数模型的 2023 年 12 月。

基准测试

在本节中，我们报告了 Llama 3 模型在标准自动基准测试中的结果。对于所有评估，我们使用内部评估库。有关方法的详细信息，请参阅此处。

基础预训练模型

类别	基准测试	Llama 3 8B	Llama2 7B	Llama2 13B	Llama 3 70B	Llama2 70B
通用	MMLU（5 次射击）	66.6	45.7	53.8	79.5	69.7
	AGIEval 英语（3 - 5 次射击）	45.9	28.8	38.7	63.0	54.8
	常识问答（7 次射击）	72.6	57.6	67.6	83.8	78.7
	Winogrande（5 次射击）	76.1	73.3	75.4	83.1	81.8
	BIG - Bench Hard（3 次射击，思维链）	61.1	38.1	47.0	81.3	65.7
	ARC - Challenge（25 次射击）	78.6	53.7	67.6	93.0	85.3
知识推理	TriviaQA - Wiki（5 次射击）	78.5	72.1	79.6	89.7	87.5
阅读理解	SQuAD（1 次射击）	76.4	72.2	72.1	85.6	82.6
	QuAC（1 次射击，F1）	44.4	39.6	44.9	51.1	49.4
	BoolQ（0 次射击）	75.7	65.5	66.9	79.0	73.1
	DROP（3 次射击，F1）	58.4	37.9	49.8	79.7	70.2

指令微调模型

基准测试	Llama 3 8B	Llama 2 7B	Llama 2 13B	Llama 3 70B	Llama 2 70B
MMLU（5 次射击）	68.4	34.1	47.8	82.0	52.9
GPQA（0 次射击）	34.2	21.7	22.3	39.5	21.0
HumanEval（0 次射击）	62.2	7.9	14.0	81.7	25.6
GSM - 8K（8 次射击，思维链）	79.6	25.7	77.4	93.0	57.5
MATH（4 次射击，思维链）	30.0	3.8	6.7	50.4	11.6

责任与安全

我们相信，开放的人工智能方法能够带来更好、更安全的产品，加速创新，并扩大整体市场。我们致力于负责任地开发人工智能，并采取了一系列措施来限制滥用和危害，支持开源社区。

基础模型是功能广泛的技术，旨在用于各种应用。它们并非旨在满足所有开发者在所有用例下对安全级别的偏好，因为这些偏好本质上会因不同应用而异。

相反，负责任的大语言模型应用部署是通过在应用开发的各个阶段实施一系列安全最佳实践来实现的，从模型预训练、微调，到部署包含保障措施的系统，以满足特定用例和受众的安全需求。

作为 Llama 3 发布的一部分，我们更新了《负责任使用指南》，概述了开发者为其应用实施模型和系统级安全的步骤和最佳实践。我们还提供了一系列资源，包括 Meta Llama Guard 2 和 Code Shield 保障措施。这些工具已被证明能大幅降低大语言模型系统的残留风险，同时保持较高的实用性。我们鼓励开发者根据自身需求调整和部署这些保障措施，并提供了参考实现供你参考。

Llama 3 - Instruct

正如《负责任使用指南》中所述，模型实用性和模型对齐性之间可能存在一定的权衡。开发者应根据具体用例和受众，谨慎权衡对齐性和实用性的好处。使用 Llama 模型时，开发者应注意残留风险，并根据需要利用额外的安全工具，以达到适合其用例的安全标准。

安全性：对于我们的指令微调模型，我们进行了广泛的红队测试、对抗性评估，并实施了安全缓解技术，以降低残留风险。与任何大语言模型一样，残留风险可能仍然存在，我们建议开发者在其用例的背景下评估这些风险。同时，我们正在与社区合作，使人工智能安全基准标准更加透明、严格和可解释。

拒绝回答：除了残留风险，我们非常重视模型对良性提示的拒绝回答情况。过度拒绝不仅会影响用户体验，在某些情况下甚至可能有害。我们听取了开发者社区的反馈，并改进了微调过程，确保 Llama 3 比 Llama 2 更不可能错误地拒绝回答提示。

我们建立了内部基准测试，并开发了缓解措施来限制错误拒绝回答的情况，使 Llama 3 成为我们迄今为止最实用的模型。

负责任的发布

除了上述负责任使用的考虑因素外，我们遵循了严格的流程，在做出发布决定之前，采取了额外的措施来防止滥用和应对关键风险。

滥用：如果你访问或使用 Llama 3，你同意遵守《可接受使用政策》。该政策的最新版本可在 https://llama.meta.com/llama3/use-policy/ 找到。

关键风险：

CBRNE（化学、生物、放射性、核和高当量爆炸物）：我们对模型在这方面的安全性进行了两方面评估：
- 在模型训练期间进行迭代测试，评估与 CBRNE 威胁和其他对抗性风险相关的响应安全性。
- 邀请外部 CBRNE 专家进行提升测试，评估模型准确提供专家知识并减少潜在 CBRNE 滥用障碍的能力，参考不使用模型时通过网络搜索所能达到的效果。
网络安全：我们使用 Meta 的网络安全评估套件 CyberSecEval 对 Llama 3 进行了评估，衡量 Llama 3 在作为编码助手时建议不安全代码的倾向，以及在执行网络攻击请求时的响应倾向，其中攻击定义遵循行业标准 MITRE ATT&CK 网络攻击本体。在不安全编码和网络攻击实用性测试中，Llama 3 的表现与具有同等编码能力的模型相当或更安全。
儿童安全：我们组建了专家团队进行儿童安全风险评估，以评估模型产生可能导致儿童安全风险输出的能力，并通过微调提供必要的风险缓解措施。我们利用这些专家红队测试来扩展评估基准的覆盖范围，贯穿 Llama 3 模型的开发过程。对于 Llama 3，我们采用基于目标的方法进行了新的深入测试，评估模型在多种攻击向量下的风险。我们还与内容专家合作进行红队测试，评估可能违反规定的内容，同时考虑特定市场的细微差别和经验。

社区

生成式人工智能安全需要专业知识和工具，我们相信开放社区的力量能够加速其发展。我们积极参与开放联盟，如人工智能联盟、人工智能合作组织和 MLCommons，为安全标准化和透明度做出贡献。我们鼓励社区采用 MLCommons 概念验证评估等分类法，以促进安全和内容评估的协作与透明度。我们的 Purple Llama 工具已开源，供社区使用，并广泛分发给包括云服务提供商在内的生态系统合作伙伴。我们鼓励社区为我们的 GitHub 仓库做出贡献。

最后，我们建立了一系列资源，包括输出报告机制和漏洞赏金计划，以借助社区的力量不断改进 Llama 技术。

伦理考量与局限性

Llama 3 的核心价值观是开放、包容和实用。它旨在为所有人服务，并适用于广泛的用例。因此，它设计为可供不同背景、经验和观点的人使用。Llama 3 以用户的实际情况和需求为出发点，不插入不必要的判断或规范性内容，同时认识到即使某些内容在某些情况下可能存在问题，但在其他情况下也可能有价值。它尊重所有用户的尊严和自主权，特别是在推动创新和进步的自由思想和表达价值观方面。

但 Llama 3 是一项新技术，与任何新技术一样，其使用存在风险。到目前为止的测试仅在英语环境中进行，无法涵盖所有场景。因此，与所有大语言模型一样，Llama 3 的潜在输出无法提前预测，在某些情况下，模型可能会对用户提示产生不准确、有偏见或其他令人反感的响应。因此，在部署 Llama 3 模型的任何应用之前，开发者应针对其特定应用进行安全测试和微调。正如《负责任使用指南》中所述，我们建议将 Purple Llama 解决方案纳入你的工作流程，特别是 Llama Guard，它提供了一个基础模型，用于过滤输入和输出提示，在模型级安全之上增加系统级安全。

请参阅 http://llama.meta.com/responsible-use-guide 上的《负责任使用指南》。

📚 详细文档

如何使用

本仓库包含两个版本的 Meta-Llama-3-8B-Instruct，分别用于与 transformers 和原始 llama3 代码库配合使用。

与 transformers 配合使用

以下是与 Transformers 配合使用的代码片段：

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
		messages, 
		tokenize=False, 
		add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

与 `llama3` 配合使用

请遵循仓库中的说明。

要下载原始检查点，请参考以下使用 huggingface-cli 的示例命令：

huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir Meta-Llama-3-8B-Instruct

对于 Hugging Face 支持，我们建议使用 transformers 或 TGI，但类似的命令也适用。

硬件和软件

训练因素：我们使用自定义训练库、Meta 的研究超级集群和生产集群进行预训练。微调、标注和评估也在第三方云计算平台上进行。

碳足迹：预训练在 H100 - 80GB 类型的硬件上累计使用了 770 万个 GPU 小时的计算资源。估计总排放量为 2290 吨二氧化碳当量，其中 100% 由 Meta 的可持续发展计划抵消。

	时间（GPU 小时）	功耗（W）	碳排放（tCO2eq）
Llama 3 8B	130 万	700	390
Llama 3 70B	640 万	700	1900
总计	770 万		2290

预训练期间的二氧化碳排放：时间：每个模型训练所需的总 GPU 时间。功耗：所使用的 GPU 设备的峰值功率容量，根据功率使用效率进行调整。100% 的排放直接由 Meta 的可持续发展计划抵消，由于我们公开发布了这些模型，其他人无需承担预训练成本。

🔧 技术细节

模型架构

Llama 3 是一种自回归语言模型，使用优化的变压器架构。微调版本使用监督微调（SFT）和基于人类反馈的强化学习（RLHF）来符合人类对实用性和安全性的偏好。

训练数据

Llama 3 在超过 15 万亿个来自公开可用来源的令牌数据上进行了预训练。微调数据包括公开可用的指令数据集，以及超过 1000 万个手动标注的示例。预训练和微调数据集均不包含 Meta 用户数据。

基准测试方法

对于所有评估，我们使用内部评估库。有关方法的详细信息，请参阅此处。

📄 许可证

本项目遵循 Meta Llama 3 社区许可证。具体许可条款如下：

META LLAMA 3 社区许可协议

Meta Llama 3 版本发布日期：2024 年 4 月 18 日

“协议”指本协议中规定的使用、复制、分发和修改 Llama 材料的条款和条件。

“文档”指 Meta 在 https://llama.meta.com/get-started/ 上分发的随附 Meta Llama 3 的规格、手册和文档。

“被许可人”或“您”指您，或您的雇主，或任何其他个人或实体（如果您代表该个人或实体签订本协议），该个人或实体达到适用法律、规则或法规要求的提供法律同意的年龄，并且如果您代表他们签订本协议，具有约束您的雇主或该其他个人或实体的法律权力。

“Meta Llama 3”指由 Meta 在 https://llama.meta.com/llama-downloads 上分发的基础大语言模型、软件和算法，包括机器学习模型代码、训练好的模型权重、推理启用代码、训练启用代码、微调启用代码以及上述各项的其他元素。

“Llama 材料”指根据本协议提供的 Meta 专有 Meta Llama 3 和文档（及其任何部分）的统称。

“Meta”或“我们”指 Meta Platforms Ireland Limited（如果您位于欧洲经济区或瑞士，或者如果您是一个实体，您的主要营业地位于欧洲经济区或瑞士）和 Meta Platforms, Inc.（如果您位于欧洲经济区或瑞士以外）。

1. 许可权利和再分发

a. 权利授予。您被授予在 Meta 体现在 Llama 材料中的知识产权或其他权利下的非排他性、全球性、不可转让且免版税的有限许可，以使用、复制、分发、拷贝、创作衍生作品并对 Llama 材料进行修改。

b. 再分发和使用 i. 如果您分发或提供 Llama 材料（或其任何衍生作品），或使用其中任何材料的产品或服务，包括另一个人工智能模型，您应（A）随任何此类 Llama 材料提供本协议的副本；并且（B）在相关网站、用户界面、博客文章、关于页面或产品文档上显著显示“Built with Meta Llama 3”。如果您使用 Llama 材料创建、训练、微调或以其他方式改进一个人工智能模型，并将其分发或提供，您还应在任何此类人工智能模型名称的开头包含“Llama 3”。

ii. 如果您作为集成最终用户产品的一部分从被许可人处接收 Llama 材料或其任何衍生作品，则本协议第 2 条不适用于您。

iv. 您使用 Llama 材料必须遵守适用的法律法规（包括贸易合规法律法规），并遵守 Llama 材料的《可接受使用政策》（可在 https://llama.meta.com/llama3/use-policy 上获取），该政策特此通过引用并入本协议。

v. 您不得使用 Llama 材料或 Llama 材料的任何输出或结果来改进任何其他大语言模型（不包括 Meta Llama 3 或其衍生作品）。

2. 额外商业条款

如果在 Meta Llama 3 版本发布日期，被许可人或被许可人的关联公司提供的产品或服务的月活跃用户在前一个日历月超过 7 亿月活跃用户，您必须向 Meta 请求许可，Meta 可自行决定是否授予您许可，并且在 Meta 明确授予您此类权利之前，您无权行使本协议下的任何权利。

3. 保修免责声明

除非适用法律要求，Llama 材料及其任何输出和结果均按“现状”提供，不提供任何形式的保修，Meta 明确否认所有形式的保修，包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保修。您独自负责确定使用或再分发 Llama 材料的适当性，并承担使用 Llama 材料及其任何输出和结果的所有风险。

4. 责任限制

在任何责任理论下，无论在合同、侵权、疏忽、产品责任或其他方面，Meta 或其关联公司均不对因本协议引起的任何利润损失或任何间接、特殊、后果性、偶发性、惩戒性或惩罚性损害承担责任，即使 Meta 或其关联公司已被告知此类损害的可能性。

5. 知识产权

a. 本协议未授予任何商标许可，关于 Llama 材料，Meta 和被许可人均不得使用对方或其任何关联公司拥有或关联的任何名称或标志，除非在描述和再分发 Llama 材料时合理和惯常使用所需，或如本节 5(a) 所述。Meta 特此授予您仅在遵守第 1.b.i 条最后一句的要求时使用“Llama 3”（“标志”）的许可。您应遵守 Meta 的品牌指南（目前可在 https://about.meta.com/brand/resources/meta/company-brand/ 上获取）。因您使用标志而产生的所有商誉均归 Meta 所有。

b. 鉴于 Meta 对 Llama 材料及其衍生作品的所有权，对于您对 Llama 材料所做的任何衍生作品和修改，在您和 Meta 之间，您是并将继续是此类衍生作品和修改的所有者。

c. 如果您对 Meta 或任何实体提起诉讼或其他法律程序（包括在诉讼中的交叉索赔或反诉），声称 Llama 材料或 Meta Llama 3 的输出或结果，或上述任何部分，构成侵犯您拥有或可许可的知识产权或其他权利，则本协议授予您的任何许可应自该诉讼或索赔提起之日起终止。您应赔偿并使 Meta 免受任何第三方因您使用或分发 Llama 材料而产生的或与之相关的索赔。

6. 期限和终止

本协议的期限自您接受本协议或访问 Llama 材料之日起开始，并将持续有效，直至根据本协议的条款和条件终止。如果您违反本协议的任何条款或条件，Meta 可终止本协议。本协议终止后，您应删除并停止使用 Llama 材料。第 3、4 和 7 条在本协议终止后仍然有效。

7. 适用法律和管辖权

本协议应受加利福尼亚州法律管辖并依其解释，不考虑法律选择原则，《联合国国际货物销售合同公约》不适用于本协议。加利福尼亚州的法院对因本协议引起的任何争议具有专属管辖权。

Meta Llama 3 可接受使用政策

Meta 致力于促进其工具和功能（包括 Meta Llama 3）的安全和公平使用。如果您访问或使用 Meta Llama 3，您同意本《可接受使用政策》（“政策”）。本政策的最新版本可在 https://llama.meta.com/llama3/use-policy 上找到。

禁止使用

我们希望每个人都能安全、负责地使用 Meta Llama 3。您同意您不会使用或允许他人使用 Meta Llama 3 来：

违反法律或他人权利，包括：
1. 从事、促进、生成、促成、鼓励、计划、煽动或进一步推动非法或违法活动或内容，例如：
  1. 暴力或恐怖主义
  2. 对儿童的剥削或伤害，包括招揽、创建、获取或传播儿童剥削内容，或未报告儿童性虐待材料
  3. 人口贩运、剥削和性暴力
  4. 向未成年人非法分发信息或材料，包括淫秽材料，或未对此类信息或材料采用法律要求的年龄限制
  5. 性招揽
  6. 任何其他犯罪活动
2. 从事、促进、煽动或便利对个人或群体的骚扰、虐待、威胁或欺凌
3. 从事、促进、煽动或便利在就业、就业福利、信贷、住房、其他经济福利或其他基本商品和服务提供方面的歧视或其他非法或有害行为
4. 从事未经授权或无执照的任何专业实践，包括但不限于金融、法律、医疗/健康或相关专业实践
5. 在未获得适用法律要求的权利和同意的情况下，收集、处理、披露、生成或推断个人的健康、人口统计或其他敏感个人或私人信息
6. 从事或便利任何侵犯、挪用或以其他方式侵犯任何第三方权利的行为或生成任何内容，包括使用 Llama 材料的任何产品或服务的输出或结果
7. 创建、生成或便利创建恶意代码、恶意软件、计算机病毒，或做任何可能禁用、使负担过重、干扰或损害网站或计算机系统的正常运行、完整性、操作或外观的事情
从事、促进、煽动、便利或协助计划或开展对个人造成死亡或身体伤害风险的活动，包括与以下相关的 Meta Llama 3 的使用：
1. 军事、战争、核工业或应用、间谍活动、用于受美国国务院维护的《国际武器贸易条例》（ITAR）管制的材料或活动
2. 枪支和非法武器（包括武器开发）
3. 非法毒品和受管制/受控物质
4. 关键基础设施、运输技术或重型机械的操作
5. 自我伤害或伤害他人，包括自杀、自残和饮食失调
6. 任何旨在煽动或促进暴力、虐待或对个人造成身体伤害的内容
故意欺骗或误导他人，包括与以下相关的 Meta Llama 3 的使用：
1. 生成、促进或进一步推动欺诈或虚假信息的创建或传播
2. 生成、促进或进一步推动诽谤性内容，包括创建诽谤性陈述、图像或其他内容
3. 生成、促进或进一步分发垃圾邮件
4. 在未经同意、授权或合法权利的情况下冒充他人
5. 表示 Meta Llama 3 的使用或输出是人类生成的
6. 生成或便利虚假的在线互动，包括虚假评论和其他虚假在线互动方式
未向最终用户适当披露您的人工智能系统的任何已知危险

请通过以下方式报告任何违反本政策、软件“漏洞”或其他可能导致违反本政策的问题：

报告模型问题：https://github.com/meta-llama/llama3
报告模型生成的风险内容：developers.facebook.com/llama_output_feedback
报告漏洞和安全问题：facebook.com/whitehat/info
报告违反《可接受使用政策》或未经授权使用 Meta Llama 3 的情况：LlamaUseReport@meta.com

引用说明

@article{llama3modelcard,
    title={Llama 3 Model Card},
    author={AI@Meta},
    year={2024},
    url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}

贡献者

Aaditya Singh; Aaron Grattafiori; Abhimanyu Dubey; Abhinav Jauhri; Abhinav Pandey; Abhishek Kadian; Adam Kelsey; Adi Gangidi; Ahmad Al-Dahle; Ahuva Goldstand; Aiesha Letman; Ajay Menon; Akhil Mathur; Alan Schelten; Alex Vaughan; Amy Yang; Andrei Lupu; Andres Alvarado; Andrew Gallagher; Andrew Gu; Andrew Ho; Andrew Poulton; Andrew Ryan; Angela Fan; Ankit Ramchandani; Anthony Hartshorn; Archi Mitra; Archie Sravankumar; Artem Korenev; Arun Rao; Ashley Gabriel; Ashwin Bharambe; Assaf Eisenman; Aston Zhang; Aurelien Rodriguez; Austen Gregerson; Ava Spataru; Baptiste Roziere; Ben Maurer; Benjamin Leonhardi; Bernie Huang; Bhargavi Paranjape; Bing Liu; Binh Tang; Bobbie Chern; Brani Stojkovic; Brian Fuller; Catalina Mejia Arenas; Chao Zhou; Charlotte Caucheteux; Chaya Nayak; Ching-Hsiang Chu; Chloe Bi; Chris Cai; Chris Cox; Chris Marra; Chris McConnell; Christian Keller; Christoph Feichtenhofer; Christophe Touret; Chunyang Wu; Corinne Wong; Cristian Canton Ferrer; Damien Allonsius; Daniel Kreymer; Daniel Haziza; Daniel Li; Danielle Pintz; Danny Livshits; Danny Wyatt; David Adkins; David Esiobu; David Xu; Davide Testuggine; Delia David; Devi Parikh; Dhruv Choudhary; Dhruv Mahajan; Diana Liskovich; Diego Garcia-Olano; Diego Perino; Dieuwke Hupkes; Dingkang Wang; Dustin Holland; Egor Lakomkin; Elina Lobanova; Xiaoqing Ellen Tan; Emily Dinan; Eric Smith; Erik Brinkman; Esteban Arcaute; Filip Radenovic; Firat Ozgenel; Francesco Caggioni; Frank Seide; Frank Zhang; Gabriel Synnaeve; Gabriella Schwarz; Gabrielle Lee; Gada Badeer; Georgia Anderson; Graeme Nail; Gregoire Mialon; Guan Pang; Guillem Cucurell; Hailey Nguyen; Hannah Korevaar; Hannah Wang; Haroun Habeeb; Harrison Rudolph; Henry Aspegren; Hu Xu; Hugo Touvron; Iga Kozlowska; Igor Molybog; Igor Tufanov; Iliyan Zarov; Imanol Arrieta Ibarra; Irina-Elena Veliche; Isabel Kloumann; Ishan Misra; Ivan Evtimov; Jacob Xu; Jade Copet; Jake Weissman; Jan Geffert; Jana Vranes; Japhet Asher; Jason Park; Jay Mahadeokar; Jean-Baptiste Gaya; Jeet Shah; Jelmer van der Linde; Jennifer Chan; Jenny Hong; Jenya Lee; Jeremy Fu; Jeremy Teboul; Jianfeng Chi; Jianyu Huang; Jie Wang; Jiecao Yu; Joanna Bitton; Joe Spisak; Joelle Pineau; Jon Carvill; Jongsoo Park; Joseph Rocca; Joshua Johnstun; Junteng Jia; Kalyan Vasuden Alwala; Kam Hou U; Kate Plawiak; Kartikeya Upasani; Kaushik Veeraraghavan; Ke Li; Kenneth Heafield; Kevin Stone; Khalid El-Arini; Krithika Iyer; Kshitiz Malik; Kuenley Chiu; Kunal Bhalla; Kyle Huang; Lakshya Garg; Lauren Rantala-Yeary; Laurens van der Maaten; Lawrence Chen; Leandro Silva; Lee Bell; Lei Zhang; Liang Tan; Louis Martin; Lovish Madaan; Luca Wehrstedt; Lukas Blecher; Luke de Oliveira; Madeline Muzzi; Madian Khabsa; Manav Avlani; Mannat Singh; Manohar Paluri; Mark Zuckerberg; Marcin Kardas; Martynas Mankus; Mathew Oldham; Mathieu Rita; Matthew Lennie; Maya Pavlova; Meghan Keneally; Melanie Kambadur; Mihir Patel; Mikayel Samvelyan; Mike Clark; Mike Lewis; Min Si; Mitesh Kumar Singh; Mo Metanat; Mona Hassan; Naman Goyal; Narjes Torabi; Nicolas Usunier; Nikolay Bashlykov; Nikolay Bogoychev; Niladri Chatterji; Ning Dong; Oliver Aobo Yang; Olivier Duchenne; Onur Celebi; Parth Parekh; Patrick Alrassy; Paul Saab; Pavan Balaji; Pedro Rittner; Pengchuan Zhang; Pengwei Li; Petar Vasic; Peter Weng; Polina Zvyagina; Prajjwal Bhargava; Pratik Dubal; Praveen Krishnan; Punit Singh Koura; Qing He; Rachel Rodriguez; Ragavan Srinivasan; Rahul Mitra; Ramon Calderer; Raymond Li; Robert Stojnic; Roberta Raileanu; Robin Battey; Rocky Wang; Rohit Girdhar; Rohit Patel; Romain Sauvestre; Ronnie Polidoro; Roshan Sumbaly; Ross Taylor; Ruan Silva; Rui Hou; Rui Wang; Russ Howes; Ruty Rinott; Saghar Hosseini; Sai Jayesh Bondu; Samyak Datta; Sanjay Singh; Sara Chugh; Sargun Dhillon; Satadru Pan; Sean Bell; Sergey Edunov; Shaoliang Nie; Sharan Narang; Sharath Raparthy; Shaun Lindsay; Sheng Feng; Sheng Shen; Shenghao Lin; Shiva Shankar; Shruti Bhosale; Shun Zhang; Simon Vandenhende; Sinong Wang; Seohyun Sonia Kim; Soumya Batra; Sten Sootla; Steve Kehoe; Suchin Gururangan; Sumit Gupta; Sunny Virk; Sydney Borodinsky; Tamar Glaser; Tamar Herman; Tamara Best; Tara Fowler; Thomas Georgiou; Thomas Scialom; Tianhe Li; Todor Mihaylov; Tong Xiao; Ujjwal Karn; Vedanuj Goswami; Vibhor Gupta; Vignesh Ramanathan; Viktor Kerkez; Vinay Satish Kumar; Vincent Gonguet; Vish Vogeti; Vlad Poenaru; Vlad Tiberiu Mihailescu; Vladan Petrovic; Vladimir Ivanov; Wei Li; Weiwei Chu; Wenhan Xiong; Wenyin Fu; Wes Bouaziz; Whitney Meers; Will Constable; Xavier Martinet; Xiaojian Wu; Xinbo Gao; Xinfeng Xie; Xuchao Jia; Yaelle Goldschlag; Yann LeCun; Yashesh Gaur; Yasmine Babaei; Ye Qi; Yenda Li; Yi Wen; Yiwen Song; Youngjin Nam; Yuchen Hao; Yuchen Zhang; Yun Wang; Yuning Mao; Yuzi He; Zacharie Delpierre Coudert; Zachary DeVito; Zahra Hankir; Zhaoduo Wen; Zheng Yan; Zhengxing Chen; Zhenyu Yang; Zoe Papakipos