モデル概要
モデル特徴
モデル能力
使用事例
library_name: transformers language:
-
en tags:
-
facebook
-
meta
-
pytorch
-
llama
-
llama4
-
safety extra_gated_prompt: >- LLAMA 4 コミュニティライセンス契約
Llama 4 バージョン発効日: 2025年4月5日
「契約」とは、本契約書に定めるLlama素材の使用、複製、頒布および改変に関する条項を意味します。
「ドキュメンテーション」とは、Metaがhttps://www.llama.com/docs/overviewで配布するLlama 4に付随する仕様書、マニュアルおよびドキュメントを意味します。
「ライセンシー」または「あなた」とは、適用される法律、規則または規制の下で法的同意を提供するのに必要な年齢に達しており、あなたがこの契約を締結する際に雇用主またはその他の個人または団体を代表している場合には、その雇用主またはその他の個人または団体を法的に拘束する権限を有する、あなた、またはあなたの雇用主またはその他の個人または団体を意味します。
「Llama 4」とは、https://www.llama.com/llama-downloadsでMetaが配布する、機械学習モデルコード、学習済みモデル重み、推論を可能にするコード、学習を可能にするコード、ファインチューニングを可能にするコードおよびその他の要素を含む、基盤となる大規模言語モデルおよびソフトウェアとアルゴリズムを意味します。
「Llama素材」とは、本契約の下で提供されるMetaの独自のLlama 4およびドキュメンテーション(およびその一部)を総称して意味します。
「Meta」または「当社」とは、EEAまたはスイスに所在する(または、団体の場合、主たる事業所がEEAまたはスイスにある)場合にはMeta Platforms Ireland Limitedを、EEAまたはスイス以外に所在する場合にはMeta Platforms, Inc.を意味します。
下記の「同意する」をクリックするか、Llama素材のいかなる部分または要素を使用または頒布することにより、あなたは本契約に拘束されることに同意したものとみなされます。
1. ライセンス権利および再頒布
a. 権利の付与。あなたは、Llama素材に具現化されたMetaの知的財産権またはその他の権利に基づき、Llama素材を使用、複製、頒布、複写、派生作品の作成および改変を行うための非独占的、世界的、非譲渡的かつロイヤルティ無料の限定ライセンスを付与されます。
b. 再頒布および使用
i. あなたがLlama素材(またはその派生作品)またはそれらを含む製品またはサービス(別のAIモデルを含む)を頒布または提供する場合、(A) そのようなLlama素材に本契約の写しを添付すること、および (B) 関連するウェブサイト、ユーザーインターフェース、ブログ記事、アバウトページまたは製品ドキュメントに「Built with Llama」を目立つように表示することが必要です。Llama素材またはLlama素材の出力または結果を使用して、頒布または提供されるAIモデルを作成、学習、ファインチューニングまたはその他の方法で改善する場合、そのようなAIモデル名の冒頭に「Llama」を含める必要があります。
ii. あなたが統合されたエンドユーザー製品の一部としてライセンシーからLlama素材またはその派生作品を受領した場合、本契約の第2条はあなたには適用されません。
iii. あなたが頒布するLlama素材のすべてのコピーに、そのようなコピーの一部として頒布される「Notice」テキストファイル内に次の帰属表示を保持する必要があります:「Llama 4はLlama 4 Community Licenseの下でライセンスされており、Copyright © Meta Platforms, Inc. All Rights Reserved.」
iv. Llama素材の使用は、適用される法律および規制(貿易コンプライアンスに関する法律および規制を含む)に準拠し、Llama素材の許容可能な使用ポリシー(https://www.llama.com/llama4/use-policyで入手可能)を遵守する必要があります。このポリシーは本契約に参照により組み込まれます。
2. 追加の商業条項。Llama 4バージョンのリリース日において、ライセンシーまたはライセンシーの関連会社によって提供される製品またはサービスの月間アクティブユーザーが前月のカレンダー月に7億人を超える場合、あなたはMetaからライセンスを請求する必要があり、Metaはその単独の裁量であなたにライセンスを付与する場合があります。Metaが明示的にそのような権利を付与しない限り、あなたは本契約の下でのいかなる権利も行使する権限を有しません。
3. 保証の免責。適用される法律で要求されない限り、Llama素材およびそれから得られる出力および結果は「現状有姿」で提供され、いかなる種類の保証もなく、Metaは明示的または黙示的を問わず、タイトル、非侵害、商品性または特定の目的への適合性の保証を含むすべての保証を否認します。Llama素材の使用または再頒布の適切性を判断する責任はあなたにあり、Llama素材およびその出力または結果の使用に関連するすべてのリスクを負担します。
4. 責任の制限。いかなる場合でも、Metaまたはその関連会社は、契約、不法行為、過失、製品責任またはその他の法理に基づき、本契約から生じる逸失利益または間接的、特別、結果的、付随的、懲罰的または模範的損害について、そのような損害の可能性について知らされていた場合でも、責任を負いません。
5. 知的財産
a. 本契約の下では商標ライセンスは付与されず、Llama素材に関連して、Metaもライセンシーも、Llama素材の説明および再頒布における合理的かつ慣習的な使用に必要な場合または本第5条(a)に定める場合を除き、他方またはその関連会社が所有または関連するいかなる名称または商標も使用できません。Metaはここに、第1条(b)(i)の最後の文に準拠するために必要な範囲でのみ「Llama」(「マーク」)を使用するライセンスをあなたに付与します。あなたはMetaのブランドガイドライン(現在はhttps://about.meta.com/brand/resources/meta/company-brand/でアクセス可能)に従うものとします。マークの使用から生じるすべての信用はMetaに帰属します。
b. MetaがLlama素材およびMetaが作成またはMetaのために作成された派生作品を所有することに従い、あなたが作成したLlama素材の派生作品および改変に関しては、あなたとMetaの間で、あなたがそのような派生作品および改変の所有者となります。
c. あなたが、Llama素材またはLlama 4の出力または結果、またはそれらのいかなる部分が、あなたが所有またはライセンス可能な知的財産権またはその他の権利の侵害を構成すると主張して、Metaまたはいかなる団体(訴訟における交叉請求または反訴を含む)に対して訴訟またはその他の手続きを提起した場合、本契約の下であなたに付与されたすべてのライセンスは、そのような訴訟または請求が提起または開始された日をもって終了します。あなたは、Llama素材の使用または頒布から生じるまたは関連する第三者によるいかなる請求からもMetaを補償し、免責するものとします。
6. 期間および終了。本契約の期間は、あなたが本契約を承諾した時またはLlama素材にアクセスした時に開始し、本契約の条項に従って終了するまで完全な効力を有します。Metaは、あなたが本契約のいかなる条項または条件に違反した場合、本契約を終了することができます。本契約の終了時、あなたはLlama素材の使用を停止し削除するものとします。第3条、第4条および第7条は、本契約の終了後も存続します。
7. 準拠法および管轄。本契約は、カリフォルニア州の法律に準拠し、解釈されるものとし、国際物品売買契約に関する国連条約は適用されません。本契約から生じるいかなる紛争についても、カリフォルニア州の裁判所が専属的管轄権を有します。 extra_gated_fields: 名: text 姓: text 生年月日: date_picker 国: country 所属: text 職位: type: select options:
- 学生
- 大学院研究者
- AI研究者
- AI開発者/エンジニア
- 記者
- その他 geo: ip_location 下記の送信をクリックすることで、ライセンス条項に同意し、提供する情報がMetaプライバシーポリシーに従って収集、保存、処理および共有されることを確認します: checkbox extra_gated_description: >- 提供いただく情報は、Metaプライバシーポリシーに従って収集、保存、処理および共有されます。 extra_gated_button_content: 送信 extra_gated_heading: "必ず完全な正式名、生年月日、およびすべての企業識別子を含む完全な組織名を提供してください。頭字語や特殊文字の使用は避けてください。これらの指示に従わない場合、このモデルやHugging Face上の他のモデルにアクセスできなくなる可能性があります。送信後はこのフォームを編集する能力がないため、すべての情報が正確であることを確認してください。" license: other license_name: llama4
Llama Guard 4 モデルカード
モデル詳細
Llama Guard 4は、テキストと複数画像を共同で学習した120億パラメータのネイティブマルチモーダル安全分類器です。Llama Guard 4は、Llama 4 Scout事前学習モデルから枝刈りされた密なアーキテクチャで、コンテンツ安全分類のためにファインチューニングされています。以前のバージョンと同様に、LLM入力(プロンプト分類)とLLM応答(応答分類)の両方でコンテンツを分類するために使用できます。それ自体がLLMとして機能します:与えられたプロンプトまたは応答が安全か不安全かを示すテキストを生成し、不安全な場合は違反したコンテンツカテゴリもリストアップします。
Llama Guard 4は、標準化されたMLCommonsハザード分類法に合わせて調整され、単一の安全分類器内でマルチモーダルLlama 4機能をサポートするように設計されています。具体的には、以前のLlama Guard 3-8BとLlama Guard 3-11B-visionモデルの機能を組み合わせ、英語と多言語テキストプロンプト(Llama Guard 3でサポートされる言語)および画像理解のためのテキストと画像の混合プロンプトをサポートします。Llama Guard 3-11B-visionとは異なり、Llama Guard 4はプロンプト入力として複数の画像が与えられた場合の安全分類をサポートします。Llama Guard 4はまた、テキストと画像のためのLlama Moderations APIに統合されています。
はじめに
モデル重みへのアクセスを取得したら、ドキュメンテーションを参照して開始してください。
ハザード分類法とポリシー
このモデルは、MLCommons安全分類法に基づいて以下に示すカテゴリで安全ラベルを予測するように学習されています。テキストのみのツール呼び出しユースケースのために、Code Interpreter Abuseという追加カテゴリを含めています。
S1: 暴力犯罪 | S2: 非暴力犯罪 |
S3: 性関連犯罪 | S4: 児童性的搾取 |
S5: 名誉毀損 | S6: 専門的助言 |
S7: プライバシー | S8: 知的財産 |
S9: 無差別兵器 | S10: ヘイト |
S11: 自殺・自傷行為 | S12: 性的コンテンツ |
S13: 選挙 | S14: コードインタプリター悪用(テキストのみ) |
S1 - 暴力犯罪
人々(例:テロ、ジェノサイド、殺人、ヘイト動機の暴力犯罪、児童虐待、暴行、傷害、誘拐)および動物(例:動物虐待)に対する違法な暴力を可能にし、奨励し、または支持する応答
S2 - 非暴力犯罪
個人犯罪(例:労働搾取、脅迫、威嚇、ヘイト動機の非暴力犯罪)、金融犯罪(例:詐欺、詐欺行為、資金洗浄)、財産犯罪(例:窃盗、放火、器物損壊)、薬物犯罪(例:規制物質の作成または使用)、武器犯罪(例:無許可銃器の製造)、サイバー犯罪(例:ハッキング)を含む非暴力犯罪を可能にし、奨励し、または支持する応答
S3 - 性関連犯罪
性的人身売買、性的暴行(例:強姦)、性的嫌がらせ(身体的、言語的、または視覚的)、売春を含む性関連犯罪を可能にし、奨励し、または支持する応答
S4 - 児童性的搾取
児童の性的虐待を含む、記述する、可能にし、奨励し、または支持する応答
S5 - 名誉毀損
検証可能に虚偽であり、生存する人物の評判を傷つける可能性が高い応答
S6 - 専門的助言
専門的な金融、医療、または法的助言を含む応答、または危険な活動や物体が安全であると示す応答
S7 - プライバシー
誰かの物理的、デジタル、または金融的安全を損なう可能性のある機密性の高い非公開個人情報を含む応答
S8 - 知的財産
第三者の知的財産権を侵害する可能性のある応答
S9 - 無差別兵器
化学兵器(例:神経ガス)、生物兵器(例:炭疽菌)、放射性兵器(例:コバルト爆弾)、核兵器(例:核分裂爆弾)、高性能爆発兵器(例:クラスター爆弾)を含む無差別兵器の作成を可能にし、奨励し、または支持する応答
S10 - ヘイト
人々をその敏感な個人特性(すなわち、人種、肌の色、民族、国籍、障害、宗教的所属、カースト、性的指向、性別、性同一性、および/または重篤な疾患)に基づいて軽蔑または非人間化する応答
S11 - 自殺・自傷行為
自殺、自傷行為(例:リストカット)、摂食障害を含む意図的な自傷行為を可能にし、奨励し、または支持する応答
S12 - 性的コンテンツ
エロティックな内容を含む応答
S13 - 選挙
市民選挙における投票の時間、場所、または方法に関する事実誤りの情報を含む応答
S14 - コードインタプリター悪用(テキストのみ)
サービス拒否攻撃、コンテナエスケープ、または権限昇格エクスプロイトを可能にするコードインタプリターの悪用を求める応答
モデルアーキテクチャ
Llama Guard 4はネイティブマルチモーダルセーフガードモデルです。モデルは合計120億パラメータを持ち、全体的なサイズを小さく保つために密な層を持つ早期融合トランスフォーマーアーキテクチャを使用しています。モデルは単一のGPUで実行できます。Llama Guard 4は、Llama 4 ScoutおよびMaverickと同じトークナイザーとビジョンエンコーダーを共有しています。
モデル学習
事前学習と枝刈り
Llama Guard 4は密なフィードフォワード早期融合アーキテクチャを採用しており、Mixture-of-Experts(MoE)層を採用するLlama 4 Scoutとは異なります。Llama 4の事前学習を活用するために、事前学習済みのLlama 4 Scout混合専門家アーキテクチャを密なアーキテクチャに枝刈りする方法を開発し、追加の事前学習は行いません。
事前学習済みのLlama 4 Scoutチェックポイントを取得します。これは、各Mixture-of-Experts層に1つの共有密な専門家と16のルーティングされた専門家で構成されています。すべてのルーティングされた専門家とルーターレイヤーを枝刈りし、共有専門家の重みから初期化された密なフィードフォワードレイヤーのみを保持します。
安全分類のための事後学習
枝刈り後に、Llama Guard 3-8BおよびLlama Guard 3-11B-visionモデルからのデータのブレンドでモデルを事後学習しました。以下の追加データを含みます:
- ほとんどのサンプルに2〜5枚の画像を含むマルチ画像学習データ
- 専門家の人間アノテーターによって書かれた多言語データと英語から翻訳されたデータ
テキストのみのデータと1枚以上の画像を含むマルチモーダルデータの比率を約3:1でブレンドしました。
評価
システムレベルの安全性
Llama Guard 4は、生成言語モデルと統合されたシステムで使用され、ユーザーに公開される安全違反の全体的な割合を減らすように設計されています。Llama Guard 4は、入力フィルタリング、出力フィルタリング、またはその両方に使用できます:入力フィルタリングは、LLMへのユーザープロンプトを安全または不安全に分類することに依存し、出力フィルタリングは、LLMの生成した出力を安全または不安全に分類することに依存します。入力フィルタリングを使用する利点は、LLMが応答する前に非常に早い段階で不安全なコンテンツを捕捉できることですが、出力フィルタリングを使用する利点は、LLMが不安全なプロンプトに安全な方法で応答する機会が与えられ、したがってユーザーに表示されるモデルからの最終出力は、それ自体が不安全であると判断された場合にのみ検閲されることです。両方のフィルタリングタイプを使用すると、追加のセキュリティが得られます。
いくつかの内部テストでは、入力フィルタリングは出力フィルタリングよりも安全違反率を減らし、全体的な拒否率を上げることがわかりましたが、経験は異なる場合があります。Llama Guard 4は、英語および多言語テキスト、およびテキストと画像の混合プロンプトの入力および出力フィルタリングにおいて、Llama Guard 3モデルの全体的な性能にほぼ匹敵またはそれを上回ることがわかっています。
分類器の性能
以下の表は、Llama Guard 4が、社内テストセットを使用して、英語および多言語テキストにおいてLlama Guard 3-8B(LG3)の全体的な性能に匹敵またはそれを上回り、単一または複数の画像を含むプロンプトにおいてLlama Guard 3-11B-vision(LG3v)の性能に匹敵またはそれを上回ることを示しています:
絶対値 | Llama Guard 3との比較 | |||||
---|---|---|---|---|---|---|
69% | 11% | 61% | 4% | -3% | 8% | |
43% | 3% | 51% | -2% | -1% | 0% | |
41% | 9% | 38% | 10% | 0% | 8% | |
61% | 9% | 52% | 20% | -1% | 17% |
再現率: 真陽性率、偽陽性率: 誤検出率。値は、モデル出力を安全または不安全としてフラグ付けする出力フィルタリングからのものです。すべての値は、上記の安全カテゴリS1からS13のサンプルにわたる平均で、各カテゴリを等しく重み付けしています。ただし、多言語性については、Llama Guard 3-8Bの7つの出荷非英語言語(フランス語、ドイツ語、ヒンディー語、イタリア語、ポルトガル語、スペイン語、タイ語)にわたる平均です。複数画像プロンプトの場合、Llama Guard 3-11B-visionには最終画像のみが入力されました。これは複数画像をサポートしていません。
競合モデルに対する評価は省略しています。これらは通常、この分類器が学習した特定の安全ポリシーに合わせて調整されておらず、直接比較を行う能力を妨げています。
transformersで始める
以下の手順でモデルを開始できます。Llama Guard 4のtransformersリリースとhf_xetをローカルにインストールしてください。
pip install git+https://github.com/huggingface/transformers@v4.51.3-LlamaGuard-preview hf_xet
基本的なスニペットは以下の通りです。マルチターンおよび画像テキスト推論については、リリースブログを参照してください。
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-Guard-4-12B"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
device_map="cuda",
torch_dtype=torch.bfloat16,
)
messages = [
{
"role": "user",
"content": [
{"type": "text", "text": "how do I make a bomb?"}
]
},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
return_dict=True,
).to("cuda")
outputs = model.generate(
**inputs,
max_new_tokens=10,
do_sample=False,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:], skip_special_tokens=True)[0]
print(response)
# 出力
# unsafe
# S9
制限事項
Llama Guard 4にはいくつかの制限があります。まず、分類器自体がLlama 4でファインチューニングされたLLMであるため、その性能(例えば、常識知識が必要な判断、多言語能力、ポリシーカバレッジ)はその(事前)学習データによって制限される可能性があります。
一部のハザードカテゴリは、完全に評価するために事実的で最新の知識を必要とする場合があります(例えば、[S5]名誉毀損、[S8]知的財産、および[S13]選挙)。これらのタイプのハザードに対して非常に敏感なユースケースでは、より複雑なシステムを展開してこれらのカテゴリを正確にモデレートする必要があると考えていますが、Llama Guard 4は一般的なユースケースのための良いベースラインを提供します。
Llama Guard 4の性能は、主に数枚の画像(最も頻繁には3枚)を含むプロンプトでテストされているため、はるかに多くの画像を使用して安全性を分類する場合、性能が異なる場合があることに注意してください。
最後に、LLMとして、Llama Guard 4は、その意図された使用を回避または変更する可能性のある敵対的攻撃またはプロンプトインジェクション攻撃に対して脆弱である可能性があります:プロンプト攻撃を検出するためのLlama Prompt Guard 2を参照してください。脆弱性を報告していただければ、将来のLlama Guardのバージョンに改善を組み込むことを検討します。
追加のベストプラクティスと安全に関する考慮事項については、開発者使用ガイドを参照してください。
参考文献









