Llama-Guard-3-8B-INT8オープンソースコンテンツセキュリティ分類モデル

Home

Llama Guard 3 8B INT8

Developed by meta-llama

Llama-3.1-8Bをベースにファインチューニングされたコンテンツセキュリティ分類モデルで、8種類の言語の入力/応答コンテンツ審査をサポートします。

大規模言語モデル

Transformers

English#多言語コンテンツ審査 #LLMセキュリティ分類 #コードインタープリター防護

Downloads 4,165

Release Time : 7/21/2024

Model Overview

大規模言語モデル(LLM)の入力プロンプトと生成応答のセキュリティ分類に使用され、14種類の違反コンテンツを識別し、多言語審査をサポートします。

Model Features

多シナリオ分類

LLMの入力プロンプトと生成応答のセキュリティ審査を同時に処理できます。

多言語サポート

8種類の言語のコンテンツセキュリティ審査をサポートします。

特定シナリオ最適化

検索とコードインタープリターツールの呼び出しのセキュリティ防護に特化して最適化されています。

細かい分類体系

MLCommons標準に基づいて14種類の危害コンテンツを識別します。

Model Capabilities

プロンプトコンテンツのセキュリティ分類

応答コンテンツのセキュリティ審査

多言語コンテンツ審査

違反カテゴリ識別

コードインタープリターの乱用検出

Use Cases

コンテンツセキュリティ

チャットボットのコンテンツフィルタリング

ユーザー入力とAI応答の中の違反コンテンツを検出します。

セキュリティ評価と具体的な違反カテゴリを出力します。

コードインタープリター防護

潜在的な悪意のあるコード実行要求を識別します。

コンテナエスケープなどの攻撃試みを阻止します。

多言語審査

国際化コンテンツ審査

8種類の言語の違反コンテンツ検出をサポートします。

多言語のユーザー生成コンテンツを統一的に処理します。

🚀 Llama Guard 3 - 8Bモデル

Llama Guard 3は、Llama-3.1-8Bをベースにした事前学習モデルで、微調整を行って内容の安全分類に使用されます。大規模言語モデル（LLM）の入力（プロンプト分類）と応答（応答分類）の内容を分類し、与えられたプロンプトまたは応答が安全かどうかを示すテキスト出力を生成します。安全でない場合には、違反した内容のカテゴリも列挙します。このモデルは8種類の言語の内容審査をサポートし、検索やコードインタープリターツールの呼び出しのセキュリティ保障に最適化されています。

🚀 クイックスタート

サポートバージョンの説明

⚠️ 重要な注意事項

このリポジトリはモデルの8ビットバージョンに対応しており、bitsandbytesを使用して読み込むことができます。半精度バージョンが必要な場合は、meta-llama/Llama-Guard-3-8Bをご覧ください。

使用例

Llama Guard 3は、transformersとbitsandbytesライブラリと直接連携して使用できます。transformers 4.43バージョン以降でLlama 3.1がサポートされています。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

model_id = "meta-llama/Llama-Guard-3-8B-INT8"
device = "cuda"
dtype = torch.bfloat16

quantization_config = BitsAndBytesConfig(load_in_8bit=True)

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=dtype, device_map=device, quantization_config=quantization_config)

def moderate(chat):
    input_ids = tokenizer.apply_chat_template(chat, return_tensors="pt").to(device)
    output = model.generate(input_ids=input_ids, max_new_tokens=100, pad_token_id=0)
    prompt_len = input_ids.shape[-1]
    return tokenizer.decode(output[0][prompt_len:], skip_special_tokens=True)

moderate([
    {"role": "user", "content": "I forgot how to kill a process in Linux, can you help?"},
    {"role": "assistant", "content": "Sure! To kill a process in Linux, you can use the kill command followed by the process ID (PID) of the process you want to terminate."},
])

✨ 主な機能

多シーン分類：LLMの入力と応答内容を分類し、その安全性を判断できます。
多言語対応：8種類の言語の内容審査機能を提供します。
特定シーン最適化：検索やコードインタープリターツールの呼び出しのセキュリティ保障に最適化されています。

📚 ドキュメント

モデル概要

Llama Guard 3は内容の安全分類を目的としており、MLCommons標準化の危害分類法に基づいて訓練され、さまざまな危害カテゴリを識別できます。

危害分類とポリシー

このモデルは、以下の14カテゴリについて安全ラベルの予測を行うように訓練されています。これは MLCommons分類法の13種類の危害と、コードインタープリターツール呼び出しのユースケースに対する追加の「コードインタープリターの乱用」カテゴリに基づいています。

危害カテゴリ	詳細
S1：暴力犯罪	人（テロリズム、大量虐殺、殺人など）や動物（動物虐待など）に対する違法な暴力行為を含みます
S2：非暴力犯罪	個人犯罪、金融犯罪、財産犯罪、麻薬犯罪、武器犯罪、ネット犯罪などが含まれます
S3：性関連犯罪	性取引、性的暴行、セクハラ、売春など
S4：児童性的搾取	児童の性的虐待を含み、記述し、促進し、奨励し、または支持する応答
S5：誹謗中傷	事実上虚偽で、他人の評判を傷つける可能性のある応答
S6：専門的なアドバイス	専門的な金融、医療、または法律のアドバイスを含む、または危険な活動や物体が安全であることを示す応答
S7：プライバシー	他人の身体的、デジタル的、または財務的な安全を脅かす可能性のある機密性の高い非公開の個人情報を含む応答
S8：知的財産	第三者の知的財産を侵害する可能性のある応答
S9：無差別武器	無差別武器（化学兵器、生物兵器など）の製造を促進、奨励、または支持する応答
S10：ヘイトスピーチ	敏感な個人特性に基づいて他人を貶めたり非人間的に扱ったりする応答
S11：自殺と自傷行為	故意の自傷行為（自殺、自傷、摂食障害など）を促進、奨励、または支持する応答
S12：性的内容	色情的な内容を含む応答
S13：選挙関連	選挙システムやプロセスに関する事実誤りの情報を含む応答
S14：コードインタープリターの乱用	コードインタープリターの乱用を試みる（サービス拒否攻撃、コンテナエスケープ、権限昇格の脆弱性利用など）応答

サポート言語

Llama Guard 3は、以下の言語の内容セキュリティ審査をサポートしています：英語、フランス語、ドイツ語、ヒンディー語、イタリア語、ポルトガル語、スペイン語、タイ語。

スコア計算と決定

分類器のスコアを生成するために、最初のトークンの確率を見て、それを「不安全」カテゴリの確率として使用し、スコアの閾値を介して二値分類の決定を行います。

🔧 技術詳細

訓練データ

ドキュメントでは訓練データの具体的な情報について詳細に触れられていません。

📄 ライセンス

LLAMA 3.1コミュニティライセンス契約

Llama 3.1のリリース日：2024年7月23日

「契約」とは、本契約で規定されるLlama材料の使用、複製、配布、および変更に関する条項と条件を指します。

「ドキュメント」とは、Metaがhttps://llama.meta.com/doc/overview で配布するLlama 3.1に付属する仕様、マニュアル、およびドキュメントを指します。

「被許諾者」または「あなた」とは、あなた、またはあなたの雇用主、またはあなたがその個人または団体を代表して本契約に署名する場合の他の個人または団体を指します。この個人または団体は、適用される法律、規則、または規制によって要求される法的同意を与える年齢に達している必要があり、あなたが彼らを代表して本契約に署名する場合、あなたの雇用主またはその他の個人または団体を拘束する合法的な権限を持っている必要があります。

「Llama 3.1」とは、Metaがhttps://llama.meta.com/llama-downloads で配布する基礎となる大規模言語モデル、ソフトウェア、およびアルゴリズムを指します。これには、機械学習モデルのコード、訓練済みのモデルの重み、推論有効化コード、訓練有効化コード、微調整有効化コード、および上記の他の要素が含まれます。

「Llama材料」とは、本契約に基づいて提供されるMetaが所有するLlama 3.1およびドキュメント（その一部を含む）の総称を指します。

「Meta」または「私たち」とは、あなたが欧州経済圏（EEA）またはスイスに所在する場合、またはあなたが団体であり、あなたの主たる営業地がEEAまたはスイスにある場合はMeta Platforms Ireland Limitedを、それ以外の場合はMeta Platforms, Inc.を指します。

許諾権利と再配布 a. 権利の付与。あなたには、Llama材料に含まれるMetaの知的財産権またはその他の権利の下で、非排他的、世界規模、譲渡不可、無料の限定的な許諾が与えられ、Llama材料を使用、複製、配布、コピー、派生作品を作成し、変更することができます。 b. 再配布と使用 i. あなたがLlama材料（またはその派生作品）、またはその一部を含む製品やサービス（他のAIモデルを含む）を配布または提供する場合、あなたは（A）そのようなLlama材料とともに本契約のコピーを提供する必要があります。また、（B）関連するウェブサイト、ユーザーインターフェース、ブログ記事、アバウトページ、または製品ドキュメントに「Built with Llama」を目立つように表示する必要があります。あなたがLlama材料またはLlama材料の出力や結果を使用してAIモデルを作成、訓練、微調整、またはその他の方法で改善し、配布または提供する場合、あなたはそのようなAIモデルの名前の先頭に「Llama」を含める必要があります。 ii. あなたが被許諾者から統合された最終ユーザー製品の一部としてLlama材料またはその派生作品を受け取る場合、本契約の第2条はあなたには適用されません。 iii. あなたは、配布するすべてのLlama材料のコピーにおいて、そのようなコピーの一部として配布される「通知」テキストファイルに以下の帰属声明を残す必要があります：「Llama 3.1はLlama 3.1コミュニティライセンス契約に基づいてライセンスされており、著作権 © Meta Platforms, Inc. すべての権利を留保します。」 iv. あなたのLlama材料の使用は、適用される法律および規制（貿易コンプライアンスの法律および規制を含む）に従い、Llama材料の許容使用ポリシー（https://llama.meta.com/llama3_1/use-policy で入手可能）に従う必要があります。このポリシーはここに引用により本契約に組み込まれます。
追加の商業条項。Llama 3.1のリリース日に、被許諾者またはその関連会社が提供する製品またはサービスの月間アクティブユーザーが前の暦月に7億人を超える場合、あなたはMetaに許可を求める必要があります。Metaは独自の判断で許可を与えるかどうかを決定することができ、Metaが明示的にそのような権利を与えるまで、あなたは本契約に基づくいかなる権利も行使することができません。
免責事項。適用される法律で要求される場合を除き、Llama材料およびその出力や結果は「現状のまま」提供され、いかなる形式の保証も提供されません。Metaはすべての明示的および暗示的な保証を否認し、所有権、非侵害、市場性、または特定の用途への適合性に関する保証を含みます。あなたは、Llama材料の使用または再配布の適切性を独自に判断し、Llama材料およびその出力や結果の使用に関連するすべてのリスクを負う責任があります。
責任制限。いかなる場合も、Metaまたはその関連会社は、本契約に起因するいかなる理論に基づく責任についても、契約、不法行為、過失、製品責任、またはその他の理由で、利益の損失、または間接的、特殊的、結果的、偶発的、懲罰的、または罰則的な損害賠償について責任を負いません。たとえMetaまたはその関連会社がそのような損害賠償の可能性を知っていたとしても同様です。
知的財産 a. 本契約では商標の許諾は与えられません。Llama材料に関して、Llama材料の説明や再配布、または本第5(a)条で規定される合理的かつ慣習的な使用に必要な場合を除き、Metaおよび被許諾者は、相手方またはその関連会社が所有または関連するいかなる名称やマークも使用してはなりません。Metaはここに、第1.b.i条の最後の文を遵守するために必要な「Llama」（「マーク」）の使用許可をあなたに与えます。あなたは、Metaのブランドガイドライン（現在はhttps://about.meta.com/brand/resources/meta/company-brand/ でアクセスできます）に従う必要があります。あなたのマークの使用によって生じるすべての商標権は、Metaの利益に帰属します。 b. MetaがLlama材料およびその派生作品の所有権を持つことを考慮して、あなたが作成したLlama材料の派生作品や変更に関して、あなたとMetaの間で、あなたはそのような派生作品や変更の所有者であり、そのままであり続けます。 c. あなたがMetaまたは他の団体に対して、Llama材料またはLlama 3.1の出力や結果、またはその一部があなたが所有または許諾できる知的財産権または他の権利を侵害すると主張する訴訟またはその他の手続き（訴訟における交差請求または反訴を含む）を提起した場合、本契約によってあなたに与えられたいかなる許諾も、そのような訴訟または請求が提起された日から終了します。あなたは、Llama材料の使用または配布に起因する、または関連するすべての第三者の請求からMetaを補償し、保護する責任があります。
期間と終了。本契約の期間は、あなたが本契約を受け入れるか、Llama材料にアクセスするときから始まり、本契約の条項と条件に基づいて終了するまで有効です。あなたが本契約のいずれかの条項または条件に違反した場合、Metaは本契約を終了させることができます。本契約が終了した後、あなたはLlama材料を削除し、使用を停止する必要があります。第3、4、および7条は、本契約の終了後も有効です。
適用法律と管轄権。本契約は、カリフォルニア州の法律に準拠して解釈され、法律選択の原則は考慮されません。また、国際連合国際商品売買契約条約は本契約には適用されません。カリフォルニア州の裁判所は、本契約に起因するすべての紛争に対して排他的な管轄権を有します。

Llama 3.1許容使用ポリシー

Metaは、そのツールや機能（Llama 3.1を含む）の安全で公正な使用を促進することに取り組んでいます。あなたがLlama 3.1にアクセスまたは使用する場合、あなたは本許容使用ポリシー（「ポリシー」）に同意するものとします。本ポリシーの最新バージョンは https://llama.meta.com/llama3_1/use-policy で確認できます。

禁止される使用

私たちは、誰もが安全かつ責任を持ってLlama 3.1を使用することを望んでいます。あなたは、以下の行為を行うためにLlama 3.1を使用したり、他人に使用させたりしないことに同意します。

法律または他人の権利に違反する行為、具体的には：
1. 違法または犯罪行為や内容を行い、促進し、生成し、引き起こし、奨励し、計画し、扇動し、またはさらに実行する行為、例えば：
  1. 暴力またはテロリズム
  2. 児童の搾取または傷害、児童搾取内容の募集、作成、取得、または配布、または児童性虐待材料の報告漏れ
  3. 人身売買、搾取、および性的暴力
  4. 未成年者への情報や材料（猥褻な材料を含む）の不法な配布、またはそのような情報や材料に法律で要求される年齢制限を適用しない行為
  5. 性的な勧誘
  6. その他の犯罪行為
2. 個人またはグループに対する嫌がらせ、虐待、脅迫、またはいじめを行い、促進し、扇動し、または容易にする行為
3. 雇用、雇用福利、信用、住宅、その他の経済的福利、またはその他の基本的な商品やサービスの提供における差別またはその他の違法または有害な行為を行い、促進し、扇動し、または容易にする行為
4. 金融、法律、医療/健康、または関連する専門分野の無許可または無免許の専門実践を行う行為
5. 適用される法律で要求される権利と同意を得ることなく、個人の健康、統計、またはその他の敏感な個人またはプライベート情報を収集、処理、開示、生成、または推論する行為
6. いかなる第三者の権利を侵害、盗用、またはその他の方法で侵害する行為または内容を生成する行為、Llama材料を使用する製品やサービスの出力や結果を含む
7. 悪意のあるコード、マルウェア、コンピュータウイルスを作成、生成、または容易にする行為、またはウェブサイトやコンピュータシステムの正常な動作、完全性、操作、または外観を無効化、過負荷にし、干渉し、または損害する可能性のあるその他の行為
個人に死亡または身体的な傷害のリスクをもたらす活動の計画または実施を行い、促進し、扇動し、容易にし、または支援する行為、具体的には、Llama 3.1の使用が関連する以下の分野：
1. 軍事、戦争、原子力産業または応用、諜報活動、米国国務省が管理する「国際武器貿易規則」（ITAR）で規制される材料または活動
2. 銃器および違法武器（武器開発を含む）
3. 違法麻薬および規制/管理物質
4. 重要インフラストラクチャ、輸送技術、または重型機械の操作
5. 自傷または他人への傷害、自殺、切り傷、および摂食障害を含む
6. 個人に対する暴力、虐待、または身体的な傷害を扇動または促進する内容を含む行為
他人を故意に欺瞞または誤解させる行為、具体的には、Llama 3.1の使用が関連する以下の行為：
1. 詐欺を生成、促進、またはさらに実行する行為、または虚偽情報を作成または促進する行為
2. 誹謗中傷的な内容を生成、促進、またはさらに配布する行為、誹謗中傷的な声明、画像、またはその他の内容を作成する行為
3. スパムを生成、促進、またはさらに配布する行為
4. 同意、許可、または合法的な権利を得ることなく他人になりすます行為
5. Llama 3.1の使用または出力が人間によって生成されたものであると表示する行為
6. 虚偽のオンラインインタラクションを作成、生成、または容易にする行為、虚偽のコメントやその他の虚偽のオンラインインタラクション方法を含む
最終ユーザーに対してあなたのAIシステムの既知の危険性を適切に開示しない行為

本ポリシーの違反行為、ソフトウェアの「バグ」、または本ポリシーの違反につながる可能性のあるその他の問題は、以下のいずれかの方法で報告してください： * モデルの問題を報告する：https://github.com/meta-llama/llama-models/issues * モデルが生成したリスク内容を報告する：developers.facebook.com/llama_output_feedback * バグとセキュリティ問題を報告する：facebook.com/whitehat/info * Llama 3の許容使用ポリシーの違反または無許可使用を報告する：LlamaUseReport@meta.com