Llama-Guard-3-8B-INT8開源內容安全分類模型

首頁

Llama Guard 3 8B INT8

由meta-llama開發

基於Llama-3.1-8B微調的內容安全分類模型，支持8種語言的輸入/響應內容審核

大型語言模型

Transformers

英語#多語言內容審核 #LLM安全分類 #代碼解釋器防護

下載量 4,165

發布時間 : 7/21/2024

模型概述

用於大語言模型(LLM)輸入提示和生成響應的安全分類，可識別14類違規內容並支持多語言審核

模型特點

多場景分類

可同時處理LLM輸入提示和生成響應的安全審核

多語言支持

支持8種語言的內容安全審核

特定場景優化

針對搜索和代碼解釋器工具調用的安全防護特別優化

精細分類體系

基於MLCommons標準識別14類危害內容

模型能力

提示內容安全分類

響應內容安全審核

多語言內容審核

違規類別識別

代碼解釋器濫用檢測

使用案例

內容安全

聊天機器人內容過濾

檢測用戶輸入和AI響應中的違規內容

輸出安全評級及具體違規類別

代碼解釋器防護

識別潛在的惡意代碼執行請求

阻止容器逃逸等攻擊嘗試

多語言審核

國際化內容審核

支持8種語言的違規內容檢測

統一處理多語言用戶生成內容

🚀 Llama Guard 3 - 8B模型

Llama Guard 3是基於Llama-3.1-8B的預訓練模型，經微調後用於內容安全分類。它可對大語言模型（LLM）的輸入（提示分類）和響應（響應分類）內容進行分類，通過生成文本輸出，指示給定提示或響應是否安全；若不安全，還會列出違規的內容類別。該模型支持8種語言的內容審核，並針對搜索和代碼解釋器工具調用的安全保障進行了優化。

🚀 快速開始

支持版本說明

⚠️ 重要提示

本倉庫對應的是模型的8位版本，可使用bitsandbytes加載。如需半精度版本，請訪問 meta-llama/Llama-Guard-3-8B。

使用示例

Llama Guard 3可直接與transformers和bitsandbytes庫配合使用。自transformers 4.43版本起開始支持Llama 3.1。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

model_id = "meta-llama/Llama-Guard-3-8B-INT8"
device = "cuda"
dtype = torch.bfloat16

quantization_config = BitsAndBytesConfig(load_in_8bit=True)

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=dtype, device_map=device, quantization_config=quantization_config)

def moderate(chat):
    input_ids = tokenizer.apply_chat_template(chat, return_tensors="pt").to(device)
    output = model.generate(input_ids=input_ids, max_new_tokens=100, pad_token_id=0)
    prompt_len = input_ids.shape[-1]
    return tokenizer.decode(output[0][prompt_len:], skip_special_tokens=True)

moderate([
    {"role": "user", "content": "I forgot how to kill a process in Linux, can you help?"},
    {"role": "assistant", "content": "Sure! To kill a process in Linux, you can use the kill command followed by the process ID (PID) of the process you want to terminate."},
])

✨ 主要特性

多場景分類：可對LLM的輸入和響應內容進行分類，判斷其安全性。
多語言支持：提供8種語言的內容審核功能。
特定場景優化：針對搜索和代碼解釋器工具調用的安全保障進行了優化。

📚 詳細文檔

模型概述

Llama Guard 3旨在對內容進行安全分類，依據MLCommons標準化的危害分類法進行訓練，能識別多種危害類別。

危害分類與策略

模型經過訓練，可對以下14個類別進行安全標籤預測，基於 MLCommons分類法中的13種危害，以及針對代碼解釋器工具調用用例的額外“代碼解釋器濫用”類別。

危害類別	詳情
S1：暴力犯罪	包括對人（如恐怖主義、種族滅絕、謀殺等）和動物（如虐待動物）的非法暴力行為
S2：非暴力犯罪	涵蓋個人犯罪、金融犯罪、財產犯罪、毒品犯罪、武器犯罪和網絡犯罪等
S3：性相關犯罪	如性交易、性侵犯、性騷擾和賣淫等
S4：兒童性剝削	包含、描述、促成、鼓勵或支持對兒童的性虐待的響應
S5：誹謗	可證實為虛假且可能損害他人聲譽的響應
S6：專業建議	包含專業金融、醫療或法律建議，或表明危險活動或物體安全的響應
S7：隱私	包含可能危及他人身體、數字或財務安全的敏感非公開個人信息的響應
S8：知識產權	可能侵犯第三方知識產權的響應
S9：無差別武器	促成、鼓勵或支持製造無差別武器（如化學武器、生物武器等）的響應
S10：仇恨言論	基於敏感個人特徵貶低或非人化他人的響應
S11：自殺與自殘	促成、鼓勵或支持故意自殘行為（如自殺、自傷和飲食失調）的響應
S12：性內容	包含色情內容的響應
S13：選舉相關	包含選舉系統和流程事實錯誤信息的響應
S14：代碼解釋器濫用	試圖濫用代碼解釋器（如拒絕服務攻擊、容器逃逸或權限提升漏洞利用）的響應

支持語言

Llama Guard 3支持以下語言的內容安全審核：英語、法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語。

分數計算與決策

為生成分類器分數，我們查看第一個標記的概率，並將其作為“不安全”類別的概率，然後通過分數閾值進行二分類決策。

🔧 技術細節

訓練數據

文檔中未詳細提及訓練數據的具體信息。

📄 許可證

LLAMA 3.1社區許可協議

Llama 3.1版本發佈日期：2024年7月23日

“協議”指本協議中規定的使用、複製、分發和修改Llama材料的條款和條件。

“文檔”指Meta在https://llama.meta.com/doc/overview 分發的Llama 3.1附帶的規格、手冊和文檔。

“被許可方”或“您”指您，或您的僱主，或任何其他個人或實體（如果您代表該個人或實體簽訂本協議），該個人或實體需達到適用法律、規則或法規要求的提供法律同意的年齡，並且如果您代表他們簽訂本協議，具有約束您的僱主或該其他個人或實體的合法權力。

“Llama 3.1”指由Meta在https://llama.meta.com/llama-downloads 分發的基礎大語言模型、軟件和算法，包括機器學習模型代碼、訓練好的模型權重、推理啟用代碼、訓練啟用代碼、微調啟用代碼以及上述內容的其他元素。

“Llama材料”指根據本協議提供的Meta專有的Llama 3.1和文檔（及其任何部分）的統稱。

“Meta”或“我們”指Meta Platforms Ireland Limited（如果您位於歐洲經濟區（EEA）或瑞士，或者如果您是一個實體，您的主要營業地在EEA或瑞士）和Meta Platforms, Inc.（如果您位於EEA或瑞士以外）。

許可權利和再分發 a. 權利授予。您被授予在Meta體現在Llama材料中的知識產權或其他權利下的非排他性、全球性、不可轉讓和免版稅的有限許可，以使用、複製、分發、拷貝、創作衍生作品並對Llama材料進行修改。 b. 再分發和使用 i. 如果您分發或提供Llama材料（或其任何衍生作品），或包含其中任何內容的產品或服務（包括另一個AI模型），您應（A）隨任何此類Llama材料提供本協議的副本；並且（B）在相關網站、用戶界面、博客文章、關於頁面或產品文檔上顯著顯示“Built with Llama”。如果您使用Llama材料或Llama材料的任何輸出或結果來創建、訓練、微調或以其他方式改進一個AI模型，並進行分發或提供，您還應在任何此類AI模型名稱的開頭包含“Llama”。 ii. 如果您作為集成最終用戶產品的一部分從被許可方處接收Llama材料或其任何衍生作品，則本協議第2條不適用於您。 iii. 您必須在您分發的所有Llama材料副本中，在作為此類副本一部分分發的“通知”文本文件中保留以下歸屬聲明：“Llama 3.1根據Llama 3.1社區許可協議獲得許可，版權所有 © Meta Platforms, Inc. 保留所有權利。” iv. 您對Llama材料的使用必須遵守適用的法律法規（包括貿易合規法律法規），並遵守Llama材料的可接受使用政策（可在https://llama.meta.com/llama3_1/use-policy 獲得），該政策特此通過引用併入本協議。
額外商業條款。如果在Llama 3.1版本發佈日期，被許可方或其關聯方提供的產品或服務的月活躍用戶在前一個日曆月超過7億月活躍用戶，您必須向Meta請求許可，Meta可自行決定是否授予您許可，並且在Meta明確授予您此類權利之前，您無權行使本協議下的任何權利。
免責聲明。除非適用法律要求，Llama材料及其任何輸出和結果按“現狀”提供，不提供任何形式的保證，Meta否認所有明示和暗示的保證，包括但不限於所有權、不侵權、適銷性或特定用途適用性的任何保證。您獨自負責確定使用或再分發Llama材料的適當性，並承擔與您使用Llama材料及其任何輸出和結果相關的任何風險。
責任限制。在任何情況下，Meta或其關聯方均不對因本協議引起的任何理論下的責任負責，包括合同、侵權、疏忽、產品責任或其他，對於任何利潤損失或任何間接、特殊、後果性、偶發性、懲戒性或懲罰性損害賠償，即使Meta或其關聯方已被告知可能發生此類損害賠償。
知識產權 a. 本協議未授予商標許可，關於Llama材料，除非在描述和再分發Llama材料或本第5(a)條規定的合理和慣常使用所需的情況下，Meta和被許可方均不得使用對方或其任何關聯方擁有或關聯的任何名稱或標記。Meta特此授予您僅為遵守第1.b.i條最後一句所需使用“Llama”（“標記”）的許可。您將遵守Meta的品牌指南（目前可在https://about.meta.com/brand/resources/meta/company-brand/ 訪問）。因您使用標記而產生的所有商譽將歸屬於Meta的利益。 b. 鑑於Meta對Llama材料及其為Meta製作的衍生作品的所有權，關於您製作的Llama材料的任何衍生作品和修改，在您和Meta之間，您是且將是此類衍生作品和修改的所有者。 c. 如果您對Meta或任何實體提起訴訟或其他程序（包括在訴訟中的交叉索賠或反訴），聲稱Llama材料或Llama 3.1的輸出或結果，或上述任何部分構成侵犯您擁有或可許可的知識產權或其他權利，則本協議授予您的任何許可將自提起此類訴訟或索賠之日起終止。您將賠償並使Meta免受因您使用或分發Llama材料而引起的或與之相關的任何第三方索賠。
期限和終止。本協議的期限將自您接受本協議或訪問Llama材料時開始，並將持續有效，直至根據本協議的條款和條件終止。如果您違反本協議的任何條款或條件，Meta可終止本協議。本協議終止後，您應刪除並停止使用Llama材料。第3、4和7條在本協議終止後仍然有效。
適用法律和管轄權。本協議將受加利福尼亞州法律管轄和解釋，不考慮法律選擇原則，並且《聯合國國際貨物銷售合同公約》不適用於本協議。加利福尼亞州的法院對因本協議引起的任何爭議具有專屬管轄權。

Llama 3.1可接受使用政策

Meta致力於促進其工具和功能（包括Llama 3.1）的安全和公平使用。如果您訪問或使用Llama 3.1，您同意本可接受使用政策（“政策”）。本政策的最新版本可在 https://llama.meta.com/llama3_1/use-policy 找到。

禁止使用情況

我們希望每個人都能安全、負責任地使用Llama 3.1。您同意您不會使用或允許他人使用Llama 3.1進行以下行為：

違反法律或他人權利，包括：
1. 從事、促進、生成、促成、鼓勵、策劃、煽動或進一步實施非法或違法活動或內容，例如：
  1. 暴力或恐怖主義
  2. 對兒童的剝削或傷害，包括徵集、創作、獲取或傳播兒童剝削內容，或未報告兒童性虐待材料
  3. 人口販運、剝削和性暴力
  4. 向未成年人非法分發信息或材料，包括淫穢材料，或未對此類信息或材料採用法律要求的年齡限制
  5. 性招攬
  6. 任何其他犯罪活動
2. 從事、促進、煽動或便利對個人或群體的騷擾、虐待、威脅或欺凌
3. 從事、促進、煽動或便利在就業、就業福利、信貸、住房、其他經濟福利或其他基本商品和服務的提供中進行歧視或其他非法或有害行為
4. 從事未經授權或無執照的任何專業實踐，包括但不限於金融、法律、醫療/健康或相關專業實踐
5. 在未獲得適用法律要求的權利和同意的情況下，收集、處理、披露、生成或推斷個人的健康、人口統計或其他敏感個人或私人信息
6. 從事或便利任何侵犯、挪用或以其他方式侵犯任何第三方權利的行為或生成任何內容，包括使用Llama材料的任何產品或服務的輸出或結果
7. 創建、生成或便利創建惡意代碼、惡意軟件、計算機病毒，或進行任何可能禁用、使過載、干擾或損害網站或計算機系統的正常運行、完整性、操作或外觀的其他行為
從事、促進、煽動、便利或協助策劃或開展對個人造成死亡或身體傷害風險的活動，包括與以下方面相關的Llama 3.1使用：
1. 軍事、戰爭、核工業或應用、間諜活動，用於受美國國務院維護的《國際武器貿易條例》（ITAR）管制的材料或活動
2. 槍支和非法武器（包括武器開發）
3. 非法毒品和受管制/受控物質
4. 關鍵基礎設施、運輸技術或重型機械的操作
5. 自我傷害或傷害他人，包括自殺、割傷和飲食失調
6. 任何旨在煽動或促進對個人的暴力、虐待或任何身體傷害的內容
故意欺騙或誤導他人，包括與以下方面相關的Llama 3.1使用：
1. 生成、促進或進一步實施欺詐或創建或促進虛假信息
2. 生成、促進或進一步實施誹謗性內容，包括創建誹謗性聲明、圖像或其他內容
3. 生成、促進或進一步分發垃圾郵件
4. 在未經同意、授權或合法權利的情況下冒充他人
5. 表示Llama 3.1的使用或輸出是人類生成的
6. 生成或便利虛假的在線互動，包括虛假評論和其他虛假在線互動方式
未向最終用戶適當披露您的AI系統的任何已知危險

請通過以下方式之一報告本政策的任何違規行為、軟件“漏洞”或其他可能導致本政策違規的問題： * 報告模型問題：https://github.com/meta-llama/llama-models/issues * 報告模型生成的風險內容：developers.facebook.com/llama_output_feedback * 報告漏洞和安全問題：facebook.com/whitehat/info * 報告可接受使用政策違規或未經授權使用Meta Llama 3的情況：LlamaUseReport@meta.com