Llama-Guard-3-11B-Visionオープンソースモデル - 有害な画像とテキストを検出し、マルチモーダルコンテンツのセキュリティを保障する

ホーム

Llama Guard 3 11B Vision

SinclairSchneiderによって開発

Llama-3.2-11Bに基づくマルチモーダルコンテンツセキュリティ分類モデルで、有害なテキスト/画像入力および応答の検出をサポートします。

マルチモーダル融合

Transformers

複数言語対応#マルチモーダルコンテンツセキュリティ #画像推論検出 #有害コンテンツ分類

ダウンロード数 1,725

リリース時間 : 9/26/2024

モデル概要

コンテンツセキュリティ分類に微調整された事前学習モデルで、LLMの入力と出力のセキュリティを保護でき、特に画像推論とマルチモーダル検出をサポートします。

モデル特徴

マルチモーダルコンテンツ検出

テキストと画像コンテンツを同時に分析し、有害なマルチモーダルプロンプトを識別できます。

明確な違反分類

具体的に違反した13種類のセキュリティポリシーを出力します（MLCommons分類法に基づく）。

柔軟なポリシー設定

カスタムセキュリティカテゴリの設定またはデフォルトカテゴリの除外をサポートします。

エンドツーエンド保護

LLMの全プロセス（入力プロンプト分類 + 出力応答分類）をカバーします。

モデル能力

テキストコンテンツセキュリティ分析

画像コンテンツセキュリティ分析

マルチモーダルプロンプト検出

違反カテゴリ識別

カスタムセキュリティポリシー

使用事例

コンテンツ審査

ソーシャルメディア審査

ユーザーがアップロードした画像付きのテキストコンテンツに暴力、憎悪発言などの違反コンテンツが含まれているかどうかを検出します。

人工的な再確認が必要な高リスクコンテンツを自動的にマークします。

AIチャット保護

ユーザーがLLMに送信する有害なマルチモーダルプロンプト（暴力画像 + 誘導的なテキストなど）をブロックします。

モデルが危険な応答を生成するのを防ぎます。

企業セキュリティ

社内通信監視

企業の通信ツール内の機密性の高い画像付きのテキスト情報をスキャンします。

業界のコンプライアンス要件を満たします。

🚀 Llama Guard 3 Vision

Llama Guard 3 Visionは、Llama - 3.2 - 11Bをベースにした事前学習モデルで、コンテンツセキュリティ分類に対して微調整されています。大規模言語モデル（LLM）の入力（プロンプト分類）と応答（レスポンス分類）に対してコンテンツセキュリティを提供します。また、このモデルは画像推論用例をサポートしており、有害なマルチモーダル（テキストと画像）プロンプトとそれに対するテキストレスポンスを効果的に検出することができます。

🚀 クイックスタート

モデルの重みにアクセスできるようになったら、ドキュメントを参照して使用を開始してください。

✨ 主な機能

コンテンツセキュリティ分類：大規模言語モデルの入力と応答のコンテンツセキュリティを保護するために使用できます。
画像推論のサポート：画像推論用例をサポートするように特別に設計されています。
マルチモーダル検出：有害なマルチモーダル（テキストと画像）プロンプトとテキストレスポンスを検出できます。
明確な出力：与えられたプロンプトまたはレスポンスが安全かどうかを示すテキスト出力を生成し、安全でない場合は違反したコンテンツカテゴリをリストアップします。

💻 使用例

基本的な使用法

from transformers import AutoModelForVision2Seq, AutoProcessor
import torch
from PIL import Image as PIL_Image

model_id = "meta-llama/Llama-Guard-3-11B-Vision"

processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForVision2Seq.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

image = PIL_Image.open("<path/to/image>").convert("RGB")

conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "text", 
                "text": "What is the recipe for mayonnaise?"
            },
            {
                "type": "image",
            },
        ],
    }
]

input_prompt = processor.apply_chat_template(
    conversation, return_tensors="pt"
)

inputs = processor(text=input_prompt, images=image, return_tensors="pt").to(model.device)

prompt_len = len(inputs['input_ids'][0])
output = model.generate(
    **inputs,
    max_new_tokens=20,
    pad_token_id=0,
)

generated_tokens = output[:, prompt_len:]

print(input_prompt)
print(processor.decode(generated_tokens[0]))

高度な使用法

独自のカテゴリを提供することができます：

input_prompt = processor.apply_chat_template(
    conversation,
    return_tensors="pt",
    categories = {
        "S1": "My custom category",
    },
)

または、除外するカテゴリキーの配列を指定することで、デフォルトのリストからカテゴリを除外することができます：

input_prompt = processor.apply_chat_template(
    conversation,
    return_tensors="pt",
    excluded_category_keys=["S1"],
)

📚 ドキュメント

モデル情報

Llama Guard 3 Visionは、Llama - 3.2 - 11Bの事前学習モデルをコンテンツセキュリティ分類に対して微調整したものです。大規模言語モデルと同様に、与えられたプロンプトまたはレスポンスが安全かどうかを示すテキスト出力を生成し、安全でない場合は違反したコンテンツカテゴリをリストアップします。

危害分類とポリシー

モデルは、MLCommons分類法の13種類の危害に基づいて、以下の13カテゴリについて安全ラベルの予測を行います。

属性	詳細
S1	暴力犯罪：人間（テロ、大量虐殺、殺人など）および動物（動物虐待など）に対する違法な暴力行為を含みます。
S2	非暴力犯罪：個人犯罪（労働人身売買、脅迫など）、金融犯罪（詐欺など）、財産犯罪（窃盗、放火など）、麻薬犯罪、武器犯罪、ネット犯罪などを含みます。
S3	性関連犯罪：性的人身売買、性的暴行、性的嫌がらせ、売春などを含みます。
S4	児童性的搾取：児童の性的虐待を含む、記述する、促進する、助長する、または支持するレスポンス。
S5	誹謗：虚偽であることが証明され、生存者の評判を損なう可能性のあるレスポンス。
S6	専門的なアドバイス：専門的な金融、医療などのアドバイスを含むレスポンス。
S7	プライバシー：個人のプライベートまたは敏感な情報の侵害に関連するレスポンス。
S8	知的財産：知的財産の侵害に関連するレスポンス。
S9	大量殺戮兵器：大量殺戮兵器に関連するレスポンス。
S10	憎悪：憎悪的な言動を含むレスポンス。
S11	自殺と自己傷害：自殺と自己傷害に関連するレスポンス。
S12	性的内容：性関連の内容を含むレスポンス。
S13	選挙：選挙に関連するレスポンス。

📄 ライセンス

LLAMA 3.2 コミュニティライセンス契約

Llama 3.2のリリース日：2024年9月25日

「契約」とは、本契約に規定されたLlama素材の使用、複製、配布、および修正に関する条項と条件を指します。

「ドキュメント」とは、Metaがhttps://llama.meta.com/doc/overviewで配布するLlama 3.2に付属する仕様、マニュアル、およびドキュメントを指します。

「被許諾者」または「あなた」とは、あなた、あなたの雇用主、またはあなたが代表して本契約に署名する他の個人または団体を指し、その個人または団体は、適用される法律、規則、または規制によって法律上の同意を与える年齢に達しており、あなたが彼らを代表して本契約に署名する場合、あなたの雇用主またはその他の個人または団体を拘束する法的権限を有しています。

「Llama 3.2」とは、Metaがhttps://www.llama.com/llama-downloadsで配布する基礎となる大規模言語モデル、ソフトウェア、およびアルゴリズムを指し、機械学習モデルコード、学習済みのモデルの重み、推論有効化コード、学習有効化コード、微調整有効化コード、および上記の他の要素を含みます。

「Llama素材」とは、本契約に基づいて提供されるMetaが所有するLlama 3.2およびドキュメント（およびその一部）の総称を指します。

「Meta」または「私たち」とは、あなたが欧州経済圏またはスイスに居住している場合、またはあなたが団体であり、あなたの主たる営業地が欧州経済圏またはスイスにある場合はMeta Platforms Ireland Limitedを、それ以外の場合はMeta Platforms, Inc.を指します。

以下の「同意する」をクリックするか、Llama素材の一部または要素を使用または配布することにより、あなたは本契約に拘束されることに同意するものとします。

許諾権利と再配布
- 権利の付与：あなたには、MetaがLlama素材に体現している知的財産権またはその他の権利の下で、Llama素材を使用、複製、配布、コピー、派生作品を作成し、修正するための非排他的、世界規模、譲渡不可、無料の限定的な許諾が付与されます。
- 再配布と使用
  - あなたがLlama素材（またはその派生作品）、またはその中の内容を含む製品やサービス（他の人工知能モデルを含む）を配布または提供する場合、あなたは（A）そのようなLlama素材とともに本契約のコピーを提供する必要があります。（B）関連するウェブサイト、ユーザーインターフェース、ブログ記事、アバウトページ、または製品ドキュメントに「Built with Llama」を目立つように表示する必要があります。あなたがLlama素材またはLlama素材の出力または結果を使用して人工知能モデルを作成、学習、微調整、またはその他の方法で改善し、そのモデルを配布または提供する場合、あなたはまた、そのような人工知能モデルの名前の先頭に「Llama」を含める必要があります。
  - あなたが被許諾者から統合された最終ユーザー製品の一部としてLlama素材またはその派生作品を受け取る場合、本契約の第2条はあなたには適用されません。
  - あなたは、配布するすべてのLlama素材のコピーに、「Llama 3.2はLlama 3.2コミュニティライセンスに基づいてライセンスされており、著作権 © Meta Platforms, Inc. すべての権利を留保します。」という帰属声明を含む「Notice」テキストファイルを含める必要があります。
  - あなたのLlama素材の使用は、適用される法律および規制（貿易コンプライアンスの法律および規制を含む）に準拠し、Llama素材の許容使用ポリシー（https://www.llama.com/llama3_2/use-policyで入手可能）に従う必要があり、このポリシーはここに引用により本契約に組み込まれます。
追加の商業条項：Llama 3.2のリリース日に、被許諾者またはその関連会社が提供する製品またはサービスの月間アクティブユーザーが前の暦月に7億人を超える場合、あなたはMetaに許諾を請求する必要があり、Metaは独自の判断で許諾を与えるかどうかを決定することができ、Metaが明示的にそのような権利を与えるまで、あなたは本契約に基づくいかなる権利も行使することができません。
保証の否認：適用される法律が要求する場合を除き、Llama素材およびその出力および結果は「現状のまま」提供され、いかなる形式の保証も提供されません。Metaは、所有権、非侵害、市場性、または特定の用途への適合性を含むすべての明示および暗示の保証を否認します。あなたは、Llama素材の使用または再配布の適切性を独自に判断し、Llama素材およびその出力および結果の使用に関連するすべてのリスクを負います。
責任の制限：いかなる場合も、Metaまたはその関連会社は、本契約に起因する利益の損失、または間接的、特殊的、結果的、偶発的、懲罰的、または罰則的な損害について責任を負いません。責任の理論が契約、不法行為、過失、製品責任、またはその他のものであるかどうかに関係なく、Metaまたはその関連会社がそのような損害の可能性を知っていた場合でも同様です。
知的財産
- 本契約では商標の許諾は与えられていません。Llama素材に関連して、Llama素材を説明および再配布するために合理的かつ慣習的に必要な場合を除き、または本节5(a)に記載されている場合を除き、Metaおよび被許諾者は、相手方またはその関連会社が所有または関連するいかなる名称またはマークも使用してはなりません。Metaはここで、第1.b.i条の最後の文を遵守するために必要な範囲で「Llama」（「マーク」）を使用する許諾を与えます。あなたは、Metaのブランドガイドライン（現在https://about.meta.com/brand/resources/meta/company-brand/で入手可能）に従うものとします。あなたがマークを使用することによって生じるすべての商標権はMetaに帰属します。
- MetaがLlama素材およびMetaが作成した派生作品に対する所有権を有することを条件として、あなたが作成したLlama素材の派生作品および修正については、あなたとMetaの間で、あなたがそのような派生作品および修正の所有者であり、かつ所有者であり続けます。
- あなたがMetaまたは他の団体に対して、Llama素材またはLlama 3.2の出力または結果、またはそれらの一部があなたが所有または許諾できる知的財産権またはその他の権利を侵害していると主張する訴訟またはその他の手続き（訴訟における交差請求または反訴を含む）を提起する場合、本契約で与えられたあなたの許諾は、そのような訴訟または請求が提起された日から終了します。あなたは、Llama素材の使用または配布に起因する、または関連するすべての第三者の請求からMetaを弁済し、保護するものとします。
期間と終了：本契約の期間は、あなたが本契約に同意するか、Llama素材にアクセスするときに開始し、本契約の条項および条件に基づいて終了するまで有効です。あなたが本契約のいずれかの条項または条件に違反した場合、Metaは本契約を終了することができます。本契約が終了した後、あなたはLlama素材を削除し、使用を停止する必要があります。第3条、第4条、および第7条は、本契約の終了後も有効です。
適用法律と管轄権：本契約は、カリフォルニア州の法律に準拠して解釈され、法律選択の原則は考慮されません。また、国際連合国際商品売買契約条約は本契約には適用されません。カリフォルニア州の裁判所は、本契約に起因するすべての紛争について専属管轄権を有します。

Llama 3.2 許容使用ポリシー

Metaは、そのツールおよび機能（Llama 3.2を含む）の安全かつ公正な使用を促進することに取り組んでいます。あなたがLlama 3.2にアクセスまたは使用する場合、あなたは本許容使用ポリシー（「ポリシー」）に同意するものとします。本ポリシーの最新版はhttps://www.llama.com/llama3_2/use-policyで入手できます。

禁止されている使用状況

法律または他人の権利の侵害
- 個人またはグループに対する嫌がらせ、虐待、脅迫、またはいじめを行い、促進し、扇動し、または容易にする。
- 雇用、雇用福利、信用、住宅、その他の経済的福利、またはその他の基本的な商品およびサービスの提供における差別またはその他の違法または有害な行為を行い、促進し、扇動し、または容易にする。
- 金融、法律、医療/健康、または関連する専門分野を含む、許可されていないまたは免許を持たない専門的な実践を行う。
- 個人のプライベートまたは敏感な情報（個人識別情報、健康情報、または人口統計情報を含む）を収集、処理、開示、生成、または推測する。ただし、適用される法律に基づいてそのようにする権利を取得している場合を除きます。
- いかなる第三者の権利を侵害し、盗用し、またはその他の方法で侵害する行為を行い、またはいかなるコンテンツを生成する。Llama素材を使用するいかなる製品またはサービスの出力または結果を含みます。
- 悪意のあるコード、マルウェア、コンピュータウイルスを作成、生成、または容易にする。または、ウェブサイトまたはコンピュータシステムの正常な動作、完全性、操作、または外観を無効にし、過負荷にし、干渉し、または損害を与える可能性のある他のことを行う。
- 使用制限またはその他の安全対策を故意に回避または削除する行為を行い、またはそのような行為を容易にする。または、Metaが無効にした機能を有効にする。
危険な活動の実施：個人に死亡または身体的な傷害のリスクをもたらす活動の計画または実施を行い、促進し、扇動し、容易にし、または支援する。Llama 3.2の使用に関連する軍事、戦争、原子力産業または応用、スパイ活動、米国国務省が維持する「国際武器貿易規制」（ITAR）に拘束される材料または活動、または1989年の「米国生物兵器対テロ法」または1997年の「化学兵器条約実施法」に拘束される材料または活動；銃器および違法な武器（武器開発を含む）；違法な麻薬および規制/管理物質；重要インフラストラクチャ、輸送技術、または大型機械の操作；自傷または他人への傷害（自殺、自傷、および摂食障害を含む）；暴力、虐待、または個人に身体的な傷害を与えることを扇動または促進することを目的としたコンテンツ。
故意に他人を欺瞞または誤解させる：詐欺を生成、促進、またはさらに実施する。または、虚偽情報を作成または促進する。誹謗的なコンテンツを生成、促進、またはさらに拡散する。誹謗的な声明、画像、またはその他のコンテンツを作成する。スパムを生成、促進、またはさらに配布する。同意、許可、または合法的な権利なしに他人になりすます。Llama 3.2の使用または出力が人間によって生成されたものであると表示する。虚偽のオンラインインタラクション（虚偽のコメントおよびその他の虚偽のオンラインインタラクション方法を含む）を生成または容易にする。
リスクを適切に開示しない：あなたの人工知能システムの既知の危険を最終ユーザーに適切に開示しない。
違法なツールとの相互作用：違法なコンテンツを生成することを目的とした、または違法または有害な行為を行うことを目的とした第三者のツール、モデル、またはソフトウェアと相互作用する。または、そのようなツール、モデル、またはソフトウェアの出力がMetaまたはLlama 3.2に関連付けられていると表示する。

Llama 3.2に含まれるマルチモーダルモデルについて、あなたがEUに居住する個人または主要な営業地がEUにある会社である場合、本Llama 3.2コミュニティライセンス契約の第1(a)条で与えられた権利はあなたには適用されません。この制限は、そのようなマルチモーダルモデルを含む製品またはサービスの最終ユーザーには適用されません。

以下のいずれかの方法で、本ポリシーの違反、ソフトウェアの「バグ」、または本ポリシーの違反につながる可能性のある他の問題を報告してください：