开源Llama-3.3-70B-Instruct模型 - 支持8种语言的多语言对话优化选择

首页

Llama 3.3 70B Instruct

由 meta-llama 开发

Meta Llama 3.3是一个700亿参数的多语言大语言模型，专为多语言对话场景优化，支持8种语言，在多项基准测试中表现优异。

大型语言模型

Transformers

支持多种语言#70B超大规模参数 #128k长上下文窗口 #多语言对话优化

下载量 1.1M

发布时间 : 11/26/2024

模型简介

基于优化Transformer架构的自回归语言模型，采用监督微调(SFT)和人类反馈强化学习(RLHF)对齐人类偏好，适用于多语言文本生成和对话任务。

模型特点

多语言支持

支持8种语言的文本生成和对话任务

长上下文处理

支持128k tokens的长上下文窗口

工具调用能力

支持与外部工具集成和调用

量化部署

支持4/8位量化部署，降低硬件需求

模型能力

多语言文本生成

指令跟随

工具调用

代码生成

数学推理

知识问答

使用案例

对话系统

多语言客服助手

构建支持多种语言的智能客服系统

在MMLU基准测试中达到86.0分

内容生成

多语言内容创作

生成多语言的营销文案、文章等内容

教育

语言学习助手

帮助学习者练习多语言对话和写作

🚀 Meta Llama 3.3多语言大语言模型

Meta Llama 3.3是一款70B参数的多语言大语言模型，支持文本输入和输出。它针对多语言对话场景进行了优化，在常见的行业基准测试中，表现优于许多现有的开源和闭源聊天模型。

🚀 快速开始

使用transformers库

从transformers >= 4.45.0版本开始，你可以使用Transformers的pipeline抽象或利用Auto类结合generate()函数进行对话推理。

确保通过以下命令更新你的transformers库：

pip install --upgrade transformers

以下是使用Transformers的示例代码：

import transformers
import torch

model_id = "meta-llama/Llama-3.3-70B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

使用transformers库进行工具调用

LLaMA-3.3支持多种工具调用格式。你可以在这里查看完整的提示格式化指南。

在Transformers中，也可以通过聊天模板支持工具调用。以下是一个简单工具调用的快速示例：

# First, define a tool
def get_current_temperature(location: str) -> float:
    """
    Get the current temperature at a location.
    
    Args:
        location: The location to get the temperature for, in the format "City, Country"
    Returns:
        The current temperature at the specified location in the specified units, as a float.
    """
    return 22.  # A real function should probably actually get the temperature!

# Next, create a chat and apply the chat template
messages = [
  {"role": "system", "content": "You are a bot that responds to weather queries."},
  {"role": "user", "content": "Hey, what's the temperature in Paris right now?"}
]

inputs = tokenizer.apply_chat_template(messages, tools=[get_current_temperature], add_generation_prompt=True)

你可以像往常一样从这个输入生成文本。如果模型生成了一个工具调用，你应该将其添加到聊天中，如下所示：

tool_call = {"name": "get_current_temperature", "arguments": {"location": "Paris, France"}}
messages.append({"role": "assistant", "tool_calls": [{"type": "function", "function": tool_call}]})

然后调用工具并将结果以tool角色添加到聊天中，如下所示：

messages.append({"role": "tool", "name": "get_current_temperature", "content": "22.0"})

之后，你可以再次调用generate()让模型在聊天中使用工具结果。请注意，这只是对工具调用的简要介绍，更多信息请参阅LLaMA提示格式文档和Transformers的工具使用文档。

使用`bitsandbytes`库

可以使用bitsandbytes和transformers库将模型检查点以8-bit和4-bit量化，以进一步优化内存使用。

以下是使用示例：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "meta-llama/Llama-3.3-70B-Instruct"
quantization_config = BitsAndBytesConfig(load_in_8bit=True)

quantized_model = AutoModelForCausalLM.from_pretrained(
    model_id, device_map="auto", torch_dtype=torch.bfloat16, quantization_config=quantization_config)

tokenizer = AutoTokenizer.from_pretrained(model_id)
input_text = "What are we having for dinner?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

output = quantized_model.generate(**input_ids, max_new_tokens=10)

print(tokenizer.decode(output[0], skip_special_tokens=True))

若要以4-bit加载，只需将load_in_4bit=True传入即可。

使用`llama`代码库

请遵循仓库中的说明。

要下载原始检查点，请使用以下huggingface-cli命令示例：

huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct

✨ 主要特性

多语言支持：支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
优化架构：采用优化的Transformer架构，使用监督微调（SFT）和基于人类反馈的强化学习（RLHF）来符合人类对有用性和安全性的偏好。
高性能表现：在常见的行业基准测试中，表现优于许多现有的开源和闭源聊天模型。
工具调用支持：支持多种工具调用格式，方便开发者集成外部工具。

📦 安装指南

本部分文档未提供具体安装步骤，可参考快速开始部分的代码示例进行安装和使用。

💻 使用示例

基础用法

import transformers
import torch

model_id = "meta-llama/Llama-3.3-70B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

高级用法

# First, define a tool
def get_current_temperature(location: str) -> float:
    """
    Get the current temperature at a location.
    
    Args:
        location: The location to get the temperature for, in the format "City, Country"
    Returns:
        The current temperature at the specified location in the specified units, as a float.
    """
    return 22.  # A real function should probably actually get the temperature!

# Next, create a chat and apply the chat template
messages = [
  {"role": "system", "content": "You are a bot that responds to weather queries."},
  {"role": "user", "content": "Hey, what's the temperature in Paris right now?"}
]

inputs = tokenizer.apply_chat_template(messages, tools=[get_current_temperature], add_generation_prompt=True)

tool_call = {"name": "get_current_temperature", "arguments": {"location": "Paris, France"}}
messages.append({"role": "assistant", "tool_calls": [{"type": "function", "function": tool_call}]})

messages.append({"role": "tool", "name": "get_current_temperature", "content": "22.0"})

# 再次生成文本
output = quantized_model.generate(**input_ids, max_new_tokens=10)
print(tokenizer.decode(output[0], skip_special_tokens=True))

📚 详细文档

模型信息

属性	详情
模型开发者	Meta
模型架构	Llama 3.3是一个自回归语言模型，使用优化的Transformer架构。微调版本使用监督微调（SFT）和基于人类反馈的强化学习（RLHF）来符合人类对有用性和安全性的偏好。
训练数据	Llama 3.3在约15万亿个公开可用来源的标记上进行预训练。微调数据包括公开可用的指令数据集，以及超过2500万个合成生成的示例。
参数数量	70B
输入模态	多语言文本
输出模态	多语言文本和代码
上下文长度	128k
GQA	是
标记数量	15T+
知识截止日期	2023年12月
模型发布日期	70B指令调优版本：2024年12月6日
状态	这是一个在离线数据集上训练的静态模型。随着我们通过社区反馈改进模型安全性，未来将发布微调模型的新版本。
许可证	自定义商业许可证，Llama 3.3社区许可协议可在此处查看。

预期用途

预期用例：Llama 3.3旨在用于多种语言的商业和研究用途。仅针对文本进行指令调优的模型适用于类似助手的聊天，而预训练模型可用于各种自然语言生成任务。Llama 3.3模型还支持利用其模型的输出来改进其他模型，包括合成数据生成和蒸馏。Llama 3.3社区许可证允许这些用例。
超出范围的使用：以任何违反适用法律法规（包括贸易合规法律）的方式使用。以可接受使用政策和Llama 3.3社区许可证禁止的任何其他方式使用。在本模型卡片中未明确提及支持的语言之外的语言中使用。

硬件和软件

训练因素：使用自定义训练库、Meta的自定义GPU集群和生产基础设施进行预训练。微调、注释和评估也在生产基础设施上进行。
训练能源使用：训练在H100 - 80GB（TDP为700W）类型的硬件上累计使用了3930万GPU小时的计算资源。训练时间是训练每个模型所需的总GPU时间，功耗是每个GPU设备的峰值功率容量，并根据功率使用效率进行了调整。
训练温室气体排放：估计基于位置的总温室气体排放量为11390吨CO2eq。自2020年以来，Meta在其全球运营中保持净零温室气体排放，并以100%的可再生能源匹配其电力使用，因此基于市场的总温室气体排放量为0吨CO2eq。

训练数据

概述：Llama 3.3在约15万亿个来自公开可用来源的标记上进行预训练。微调数据包括公开可用的指令数据集，以及超过2500万个合成生成的示例。
数据新鲜度：预训练数据的截止日期为2023年12月。

基准测试 - 英语文本

类别	基准测试	样本数量	指标	Llama 3.1 8B指令调优	Llama 3.1 70B指令调优	Llama-3.3 70B指令调优	Llama 3.1 405B指令调优
	MMLU (CoT)	0	macro_avg/acc	73.0	86.0	86.0	88.6
	MMLU Pro (CoT)	5	macro_avg/acc	48.3	66.4	68.9	73.3
可控性	IFEval			80.4	87.5	92.1	88.6
推理能力	GPQA Diamond (CoT)	0	acc	31.8	48.0	50.5	49.0
代码能力	HumanEval	0	pass@1	72.6	80.5	88.4	89.0
	MBPP EvalPlus (base)	0	pass@1	72.8	86.0	87.6	88.6
数学能力	MATH (CoT)	0	sympy_intersection_score	51.9	68.0	77.0	73.8
工具使用能力	BFCL v2	0	overall_ast_summary/macro_avg/valid	65.4	77.5	77.3	81.1
多语言能力	MGSM	0	em	68.9	86.9	91.1	91.6

责任与安全

负责任的部署

Llama是一种基础技术，旨在用于各种用例。有关Meta的Llama模型如何负责任地部署的示例，可以在我们的社区故事网页上找到。我们的方法是构建最有用的模型，使世界能够从技术力量中受益，通过为通用用例调整模型安全性来解决一系列标准危害。然后，开发者可以根据自己的用例定制安全性，定义自己的政策，并在其Llama系统中部署必要的保障措施。Llama 3.3是按照我们的负责任使用指南中概述的最佳实践开发的，你可以参考负责任使用指南了解更多信息。

Llama 3.3指令调优模型

微调数据：采用多方面的数据收集方法，将供应商提供的人类生成数据与合成数据相结合，以减轻潜在的安全风险。开发了许多基于大语言模型（LLM）的分类器，以便精心选择高质量的提示和响应，加强数据质量控制。
拒绝和语气：在Llama 3的基础上，非常重视模型对良性提示的拒绝以及拒绝语气。在安全数据策略中包括了边界和对抗性提示，并修改了安全数据响应以遵循语气指南。

Llama 3.3系统

大型语言模型，包括Llama 3.3，并非旨在单独部署，而是应作为整体AI系统的一部分，并根据需要添加额外的安全保障措施。开发者在构建代理系统时应部署系统保障措施。保障措施对于实现正确的有用性 - 安全性对齐以及减轻系统固有的安全和风险以及模型或系统与外部工具集成时的风险至关重要。作为我们负责任发布方法的一部分，我们为社区提供了保障措施，开发者应将其与Llama模型或其他LLM一起部署，包括Llama Guard 3、Prompt Guard和Code Shield。我们所有的参考实现演示默认包含这些保障措施，因此开发者可以立即从系统级安全中受益。

特定能力考虑

工具使用：与标准软件开发一样，开发者负责将LLM与他们选择的工具和服务集成。他们应该为自己的用例定义明确的政策，并评估他们使用的第三方服务的完整性，以了解使用此功能时的安全和风险限制。有关安全部署第三方保障措施的最佳实践，请参阅负责任使用指南。
多语言支持：Llama 3.3除英语外还支持7种语言：法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。Llama可能能够输出其他语言的文本，但这些语言可能未达到安全和有用性的性能阈值。我们强烈建议开发者在未根据其政策和负责任使用指南中分享的最佳实践进行微调并实施系统控制的情况下，不要使用此模型在不支持的语言中进行对话。

评估

对Llama模型进行了常见用例以及特定能力的评估。常见用例评估衡量了为最常见构建的应用程序（包括聊天机器人、编码助手、工具调用）的系统安全风险。构建了专门的对抗性评估数据集，并评估了由Llama模型和Llama Guard 3组成的系统，以过滤输入提示和输出响应。在上下文中评估应用程序很重要，我们建议为你的用例构建专门的评估数据集。如果与应用程序相关，还可以使用Prompt Guard和Code Shield。

特定能力评估衡量了Llama模型特定能力固有的漏洞，为此设计了专门的基准测试，包括长上下文、多语言、工具调用、编码或记忆。

红队测试

在这两种情况下，都进行了定期的红队测试，目标是通过对抗性提示发现风险，并利用这些经验教训改进我们的基准测试和安全调优数据集。

早期与关键风险领域的主题专家合作，以了解这些现实世界危害的性质，以及此类模型如何可能对社会造成意外危害。根据这些对话，为红队制定了一组对抗性目标，例如提取有害信息或重新编程模型以潜在地造成危害。红队由网络安全、对抗性机器学习、负责任AI和完整性方面的专家以及在特定地理市场的完整性问题方面有背景的多语言内容专家组成。

关键和其他风险

特别关注减轻以下关键风险领域：

CBRNE（化学、生物、放射、核和爆炸材料）有用性：为了评估Llama 3系列模型与化学和生物武器扩散相关的风险，进行了提升测试，旨在评估使用Llama 3模型是否会显著提高恶意行为者使用这些类型武器策划或实施攻击的能力。
儿童安全：由一组专家进行儿童安全风险评估，以评估模型产生可能导致儿童安全风险的输出的能力，并通过微调提供必要和适当的风险缓解建议。利用这些专家红队测试会议，在Llama 3模型开发过程中扩大了评估基准的覆盖范围。对于Llama 3，使用基于目标的方法进行了新的深入测试，以评估模型在多个攻击向量下的风险，包括Llama 3训练的其他语言。还与内容专家合作进行红队测试，评估潜在违规内容，同时考虑市场特定的细微差别或经验。
网络攻击启用：网络攻击提升研究调查了Llama 3系列大语言模型是否能在技能水平和速度方面增强人类在黑客任务中的能力。攻击自动化研究专注于评估大语言模型作为自主代理在网络攻击行动中的能力，特别是在勒索软件攻击的背景下。此评估与之前将大语言模型视为交互式助手的研究不同。主要目标是评估这些模型是否能在无人干预的情况下有效地作为独立代理执行复杂的网络攻击。

社区

生成式AI安全需要专业知识和工具，我们相信开放社区的力量可以加速其发展。我们是开放联盟的积极成员，包括AI联盟、AI合作组织和MLCommons，积极为安全标准化和透明度做出贡献。我们鼓励社区采用像MLCommons概念验证评估这样的分类法，以促进安全和内容评估方面的协作和透明度。我们的紫色Llama工具已开源供社区使用，并广泛分发给包括云服务提供商在内的生态系统合作伙伴。我们鼓励社区为我们的Github仓库做出贡献。

我们还设立了Llama影响赠款计划，以识别和支持Meta的Llama模型在三个类别中的最有吸引力的社会有益应用：教育、气候和开放创新。数百份申请中的20名决赛选手可以在这里找到。

最后，我们建立了一套资源，包括输出报告机制和漏洞赏金计划，以在社区的帮助下不断改进Llama技术。

伦理考虑和局限性

Llama 3.3的核心价值观是开放性、包容性和有用性。它旨在为每个人服务，并适用于广泛的用例。因此，它旨在让具有不同背景、经验和观点的人都能使用。Llama 3.3以用户的实际需求为出发点，不插入不必要的判断或规范性，同时认识到即使在某些情况下可能看起来有问题的内容，在其他情况下也可能有价值。它尊重所有用户的尊严和自主权，特别是在推动创新和进步的自由思想和表达价值观方面。

但Llama 3.3是一项新技术，与任何新技术一样，其使用存在风险。到目前为止进行的测试尚未涵盖，也不可能涵盖所有场景。因此，与所有大语言模型一样，Llama 3.3的潜在输出无法提前预测，模型在某些情况下可能会对用户提示产生不准确、有偏见或其他令人反感的响应。因此，在部署Llama 3.3模型的任何应用程序之前，开发者应针对其特定应用进行安全测试和调优。请参考可用资源，包括我们的负责任使用指南、信任与安全解决方案和其他资源，以了解更多关于负责任开发的信息。