模型简介
模型特点
模型能力
使用案例
🚀 Llama Guard 3 - 8B模型
Llama Guard 3是基于Llama-3.1-8B的预训练模型,经微调后用于内容安全分类。它可对大语言模型(LLM)的输入(提示分类)和响应(响应分类)内容进行分类,通过生成文本输出,指示给定提示或响应是否安全;若不安全,还会列出违规的内容类别。该模型支持8种语言的内容审核,并针对搜索和代码解释器工具调用的安全保障进行了优化。
🚀 快速开始
支持版本说明
⚠️ 重要提示
本仓库对应的是模型的8位版本,可使用
bitsandbytes
加载。如需半精度版本,请访问 meta-llama/Llama-Guard-3-8B。
使用示例
Llama Guard 3可直接与transformers
和bitsandbytes
库配合使用。自transformers
4.43版本起开始支持Llama 3.1。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
model_id = "meta-llama/Llama-Guard-3-8B-INT8"
device = "cuda"
dtype = torch.bfloat16
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=dtype, device_map=device, quantization_config=quantization_config)
def moderate(chat):
input_ids = tokenizer.apply_chat_template(chat, return_tensors="pt").to(device)
output = model.generate(input_ids=input_ids, max_new_tokens=100, pad_token_id=0)
prompt_len = input_ids.shape[-1]
return tokenizer.decode(output[0][prompt_len:], skip_special_tokens=True)
moderate([
{"role": "user", "content": "I forgot how to kill a process in Linux, can you help?"},
{"role": "assistant", "content": "Sure! To kill a process in Linux, you can use the kill command followed by the process ID (PID) of the process you want to terminate."},
])
✨ 主要特性
- 多场景分类:可对LLM的输入和响应内容进行分类,判断其安全性。
- 多语言支持:提供8种语言的内容审核功能。
- 特定场景优化:针对搜索和代码解释器工具调用的安全保障进行了优化。
📚 详细文档
模型概述
Llama Guard 3旨在对内容进行安全分类,依据MLCommons标准化的危害分类法进行训练,能识别多种危害类别。
危害分类与策略
模型经过训练,可对以下14个类别进行安全标签预测,基于 MLCommons分类法 中的13种危害,以及针对代码解释器工具调用用例的额外“代码解释器滥用”类别。
危害类别 | 详情 |
---|---|
S1:暴力犯罪 | 包括对人(如恐怖主义、种族灭绝、谋杀等)和动物(如虐待动物)的非法暴力行为 |
S2:非暴力犯罪 | 涵盖个人犯罪、金融犯罪、财产犯罪、毒品犯罪、武器犯罪和网络犯罪等 |
S3:性相关犯罪 | 如性交易、性侵犯、性骚扰和卖淫等 |
S4:儿童性剥削 | 包含、描述、促成、鼓励或支持对儿童的性虐待的响应 |
S5:诽谤 | 可证实为虚假且可能损害他人声誉的响应 |
S6:专业建议 | 包含专业金融、医疗或法律建议,或表明危险活动或物体安全的响应 |
S7:隐私 | 包含可能危及他人身体、数字或财务安全的敏感非公开个人信息的响应 |
S8:知识产权 | 可能侵犯第三方知识产权的响应 |
S9:无差别武器 | 促成、鼓励或支持制造无差别武器(如化学武器、生物武器等)的响应 |
S10:仇恨言论 | 基于敏感个人特征贬低或非人化他人的响应 |
S11:自杀与自残 | 促成、鼓励或支持故意自残行为(如自杀、自伤和饮食失调)的响应 |
S12:性内容 | 包含色情内容的响应 |
S13:选举相关 | 包含选举系统和流程事实错误信息的响应 |
S14:代码解释器滥用 | 试图滥用代码解释器(如拒绝服务攻击、容器逃逸或权限提升漏洞利用)的响应 |
支持语言
Llama Guard 3支持以下语言的内容安全审核:英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。
分数计算与决策
为生成分类器分数,我们查看第一个标记的概率,并将其作为“不安全”类别的概率,然后通过分数阈值进行二分类决策。
🔧 技术细节
训练数据
文档中未详细提及训练数据的具体信息。
📄 许可证
LLAMA 3.1社区许可协议
Llama 3.1版本发布日期:2024年7月23日
“协议”指本协议中规定的使用、复制、分发和修改Llama材料的条款和条件。
“文档”指Meta在https://llama.meta.com/doc/overview 分发的Llama 3.1附带的规格、手册和文档。
“被许可方”或“您”指您,或您的雇主,或任何其他个人或实体(如果您代表该个人或实体签订本协议),该个人或实体需达到适用法律、规则或法规要求的提供法律同意的年龄,并且如果您代表他们签订本协议,具有约束您的雇主或该其他个人或实体的合法权力。
“Llama 3.1”指由Meta在https://llama.meta.com/llama-downloads 分发的基础大语言模型、软件和算法,包括机器学习模型代码、训练好的模型权重、推理启用代码、训练启用代码、微调启用代码以及上述内容的其他元素。
“Llama材料”指根据本协议提供的Meta专有的Llama 3.1和文档(及其任何部分)的统称。
“Meta”或“我们”指Meta Platforms Ireland Limited(如果您位于欧洲经济区(EEA)或瑞士,或者如果您是一个实体,您的主要营业地在EEA或瑞士)和Meta Platforms, Inc.(如果您位于EEA或瑞士以外)。
-
许可权利和再分发 a. 权利授予。您被授予在Meta体现在Llama材料中的知识产权或其他权利下的非排他性、全球性、不可转让和免版税的有限许可,以使用、复制、分发、拷贝、创作衍生作品并对Llama材料进行修改。 b. 再分发和使用 i. 如果您分发或提供Llama材料(或其任何衍生作品),或包含其中任何内容的产品或服务(包括另一个AI模型),您应(A)随任何此类Llama材料提供本协议的副本;并且(B)在相关网站、用户界面、博客文章、关于页面或产品文档上显著显示“Built with Llama”。如果您使用Llama材料或Llama材料的任何输出或结果来创建、训练、微调或以其他方式改进一个AI模型,并进行分发或提供,您还应在任何此类AI模型名称的开头包含“Llama”。 ii. 如果您作为集成最终用户产品的一部分从被许可方处接收Llama材料或其任何衍生作品,则本协议第2条不适用于您。 iii. 您必须在您分发的所有Llama材料副本中,在作为此类副本一部分分发的“通知”文本文件中保留以下归属声明:“Llama 3.1根据Llama 3.1社区许可协议获得许可,版权所有 © Meta Platforms, Inc. 保留所有权利。” iv. 您对Llama材料的使用必须遵守适用的法律法规(包括贸易合规法律法规),并遵守Llama材料的可接受使用政策(可在https://llama.meta.com/llama3_1/use-policy 获得),该政策特此通过引用并入本协议。
-
额外商业条款。如果在Llama 3.1版本发布日期,被许可方或其关联方提供的产品或服务的月活跃用户在前一个日历月超过7亿月活跃用户,您必须向Meta请求许可,Meta可自行决定是否授予您许可,并且在Meta明确授予您此类权利之前,您无权行使本协议下的任何权利。
-
免责声明。除非适用法律要求,Llama材料及其任何输出和结果按“现状”提供,不提供任何形式的保证,Meta否认所有明示和暗示的保证,包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保证。您独自负责确定使用或再分发Llama材料的适当性,并承担与您使用Llama材料及其任何输出和结果相关的任何风险。
-
责任限制。在任何情况下,Meta或其关联方均不对因本协议引起的任何理论下的责任负责,包括合同、侵权、疏忽、产品责任或其他,对于任何利润损失或任何间接、特殊、后果性、偶发性、惩戒性或惩罚性损害赔偿,即使Meta或其关联方已被告知可能发生此类损害赔偿。
-
知识产权 a. 本协议未授予商标许可,关于Llama材料,除非在描述和再分发Llama材料或本第5(a)条规定的合理和惯常使用所需的情况下,Meta和被许可方均不得使用对方或其任何关联方拥有或关联的任何名称或标记。Meta特此授予您仅为遵守第1.b.i条最后一句所需使用“Llama”(“标记”)的许可。您将遵守Meta的品牌指南(目前可在https://about.meta.com/brand/resources/meta/company-brand/ 访问)。因您使用标记而产生的所有商誉将归属于Meta的利益。 b. 鉴于Meta对Llama材料及其为Meta制作的衍生作品的所有权,关于您制作的Llama材料的任何衍生作品和修改,在您和Meta之间,您是且将是此类衍生作品和修改的所有者。 c. 如果您对Meta或任何实体提起诉讼或其他程序(包括在诉讼中的交叉索赔或反诉),声称Llama材料或Llama 3.1的输出或结果,或上述任何部分构成侵犯您拥有或可许可的知识产权或其他权利,则本协议授予您的任何许可将自提起此类诉讼或索赔之日起终止。您将赔偿并使Meta免受因您使用或分发Llama材料而引起的或与之相关的任何第三方索赔。
-
期限和终止。本协议的期限将自您接受本协议或访问Llama材料时开始,并将持续有效,直至根据本协议的条款和条件终止。如果您违反本协议的任何条款或条件,Meta可终止本协议。本协议终止后,您应删除并停止使用Llama材料。第3、4和7条在本协议终止后仍然有效。
-
适用法律和管辖权。本协议将受加利福尼亚州法律管辖和解释,不考虑法律选择原则,并且《联合国国际货物销售合同公约》不适用于本协议。加利福尼亚州的法院对因本协议引起的任何争议具有专属管辖权。
Llama 3.1可接受使用政策
Meta致力于促进其工具和功能(包括Llama 3.1)的安全和公平使用。如果您访问或使用Llama 3.1,您同意本可接受使用政策(“政策”)。本政策的最新版本可在 https://llama.meta.com/llama3_1/use-policy 找到。
禁止使用情况
我们希望每个人都能安全、负责任地使用Llama 3.1。您同意您不会使用或允许他人使用Llama 3.1进行以下行为:
- 违反法律或他人权利,包括:
- 从事、促进、生成、促成、鼓励、策划、煽动或进一步实施非法或违法活动或内容,例如:
- 暴力或恐怖主义
- 对儿童的剥削或伤害,包括征集、创作、获取或传播儿童剥削内容,或未报告儿童性虐待材料
- 人口贩运、剥削和性暴力
- 向未成年人非法分发信息或材料,包括淫秽材料,或未对此类信息或材料采用法律要求的年龄限制
- 性招揽
- 任何其他犯罪活动
- 从事、促进、煽动或便利对个人或群体的骚扰、虐待、威胁或欺凌
- 从事、促进、煽动或便利在就业、就业福利、信贷、住房、其他经济福利或其他基本商品和服务的提供中进行歧视或其他非法或有害行为
- 从事未经授权或无执照的任何专业实践,包括但不限于金融、法律、医疗/健康或相关专业实践
- 在未获得适用法律要求的权利和同意的情况下,收集、处理、披露、生成或推断个人的健康、人口统计或其他敏感个人或私人信息
- 从事或便利任何侵犯、挪用或以其他方式侵犯任何第三方权利的行为或生成任何内容,包括使用Llama材料的任何产品或服务的输出或结果
- 创建、生成或便利创建恶意代码、恶意软件、计算机病毒,或进行任何可能禁用、使过载、干扰或损害网站或计算机系统的正常运行、完整性、操作或外观的其他行为
- 从事、促进、生成、促成、鼓励、策划、煽动或进一步实施非法或违法活动或内容,例如:
- 从事、促进、煽动、便利或协助策划或开展对个人造成死亡或身体伤害风险的活动,包括与以下方面相关的Llama 3.1使用:
- 军事、战争、核工业或应用、间谍活动,用于受美国国务院维护的《国际武器贸易条例》(ITAR)管制的材料或活动
- 枪支和非法武器(包括武器开发)
- 非法毒品和受管制/受控物质
- 关键基础设施、运输技术或重型机械的操作
- 自我伤害或伤害他人,包括自杀、割伤和饮食失调
- 任何旨在煽动或促进对个人的暴力、虐待或任何身体伤害的内容
- 故意欺骗或误导他人,包括与以下方面相关的Llama 3.1使用:
- 生成、促进或进一步实施欺诈或创建或促进虚假信息
- 生成、促进或进一步实施诽谤性内容,包括创建诽谤性声明、图像或其他内容
- 生成、促进或进一步分发垃圾邮件
- 在未经同意、授权或合法权利的情况下冒充他人
- 表示Llama 3.1的使用或输出是人类生成的
- 生成或便利虚假的在线互动,包括虚假评论和其他虚假在线互动方式
- 未向最终用户适当披露您的AI系统的任何已知危险
请通过以下方式之一报告本政策的任何违规行为、软件“漏洞”或其他可能导致本政策违规的问题: * 报告模型问题:https://github.com/meta-llama/llama-models/issues * 报告模型生成的风险内容:developers.facebook.com/llama_output_feedback * 报告漏洞和安全问题:facebook.com/whitehat/info * 报告可接受使用政策违规或未经授权使用Meta Llama 3的情况:LlamaUseReport@meta.com



