Llama-4-Scout-17B-16E-unslothオープンソースマルチモーダルAIモデル、12の言語と画像理解をサポート！

ホーム

Llama 4 Scout 17B 16E Unsloth

unslothによって開発

Llama 4 ScoutはMetaが発表した170億パラメータのマルチモーダルAIモデルで、混合専門家アーキテクチャを採用し、12言語と画像理解をサポートします。

テキスト生成画像

Transformers

複数言語対応オープンソースライセンス:その他 #マルチモーダル専門家モデル #超長文コンテキスト理解 #多言語画像処理

ダウンロード数 67

リリース時間 : 4/6/2025

モデル概要

Llama 4シリーズをベースにしたマルチモーダル大規模言語モデルで、テキストと画像の理解能力を備え、多言語シナリオにおける複雑なタスク処理に適しています。

モデル特徴

マルチモーダルサポート

テキストと画像入力を同時に処理し、クロスモーダル理解を実現

混合専門家アーキテクチャ

16専門家システムで効率的な計算リソース配分を実現

超長文コンテキスト

10Mトークンのコンテキスト長をサポート

動的量子化技術

Unslothの動的4ビット量子化により低精度モデルの精度を大幅向上

モデル能力

多言語テキスト生成

画像内容理解

クロスモーダル推論

長文書処理

指示追従

使用事例

コンテンツ作成

多言語コンテンツ生成

12言語のマーケティングコピーを自動生成

ブランドのグローバルコンテンツ戦略をサポート

教育テクノロジー

図解教材理解

教材の図解内容を解析して学習ガイドを生成

MMMUベンチマークで69.4%の精度

🚀 Llama 4モデル

Llama 4は、ネイティブなマルチモーダルAIモデルで、テキストとマルチモーダルな体験を可能にします。これらのモデルは、エキスパート混合アーキテクチャを活用して、テキストと画像理解における業界トップレベルのパフォーマンスを提供します。

🚀 クイックスタート

このバージョンは現在、Unslothでのみ動作します！当社のコレクションを参照して、4ビットおよび16ビット形式を含むLlama 4のバージョンを確認してください。

Unslothの Dynamic Quants は選択的に量子化されており、標準的な4ビットよりも精度が大幅に向上しています。

✨ 主な機能

ネイティブなマルチモーダルAIモデルで、テキストと画像の理解が可能。
エキスパート混合アーキテクチャを使用し、業界トップレベルのパフォーマンスを提供。
商用および研究用途に適しており、複数の言語に対応。
視覚認識、画像推論、キャプション付け、画像に関する一般的な質問への回答などのビジョンタスクに最適化。

📦 インストール

transformers ライブラリを使用するには、v4.51.0 がインストールされていることを確認するか、以下のコマンドでアップグレードしてください。

pip install -U transformers

💻 使用例

基本的な使用法

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"

processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

📚 ドキュメント

モデル情報

プロパティ	詳細
モデル開発者	Meta
モデルアーキテクチャ	オートレグレッシブ言語モデルで、エキスパート混合（MoE）アーキテクチャを使用し、ネイティブなマルチモーダル性のために早期融合を組み込んでいます。
サポート言語	アラビア語、英語、フランス語、ドイツ語、ヒンディー語、インドネシア語、イタリア語、ポルトガル語、スペイン語、タガログ語、タイ語、ベトナム語
モデルリリース日	2025年4月5日
ステータス	オフラインデータセットでトレーニングされた静的モデルです。コミュニティからのフィードバックを元にモデルの動作を改善した将来のバージョンがリリースされる可能性があります。
ライセンス	カスタム商用ライセンス、Llama 4 Community License Agreement。詳細はこちらを参照してください。
質問やコメントの送信先	モデルに関するフィードバックやコメントの提供方法については、Llamaの README を参照してください。Llama 4をアプリケーションで使用するための生成パラメータやレシピに関するより詳細な技術情報については、こちらを参照してください。

想定使用方法

想定使用ケース：Llama 4は、複数の言語での商用および研究用途を想定しています。命令調整済みモデルは、アシスタントのようなチャットや視覚推論タスクに使用され、事前学習モデルは自然言語生成に適応させることができます。ビジョンに関しては、Llama 4モデルは視覚認識、画像推論、キャプション付け、画像に関する一般的な質問への回答などにも最適化されています。Llama 4モデルコレクションは、そのモデルの出力を活用して他のモデルを改善する機能もサポートしており、合成データ生成や蒸留などが含まれます。これらの使用ケースは、Llama 4 Community Licenseで許可されています。
想定外の使用：適用される法律や規制（貿易コンプライアンス法律を含む）に違反する方法での使用。許容使用ポリシーおよびLlama 4 Community Licenseで禁止されている他の方法での使用。このモデルカードで明示的にサポートされている言語や機能を超えた使用。

ハードウェアとソフトウェア

トレーニング要因：事前学習には、カスタムトレーニングライブラリ、MetaのカスタムビルトGPUクラスター、および本番インフラストラクチャを使用しました。微調整、量子化、アノテーション、および評価も本番インフラストラクチャで実行されました。
トレーニングエネルギー使用量：モデルの事前学習には、以下の表に示すように、H100 - 80GB（TDP 700W）タイプのハードウェアで累計 738万 GPU時間の計算が使用されました。トレーニング時間は、各モデルのトレーニングに必要な総GPU時間であり、消費電力は使用される各GPUデバイスの最大電力容量で、電力使用効率を考慮して調整されています。 | モデル名 | トレーニング時間（GPU時間） | トレーニング消費電力（W） | トレーニングによる温室効果ガス排出量（CO2eqトン）（ロケーションベース） | トレーニングによる温室効果ガス排出量（CO2eqトン）（市場ベース） | | :---- | :---: | :---: | :---: | :---: | | Llama 4 Scout | 500万 | 700 | 1354 | 0 | | Llama 4 Maverick | 238万 | 700 | 645 | 0 | | 合計 | 738万 | - | 1999 | 0 |
トレーニング温室効果ガス排出量：トレーニングによる推定総ロケーションベースの温室効果ガス排出量は 1999トン CO2eqでした。2020年以来、Metaはグローバルな事業において温室効果ガス排出量をネットゼロに維持し、電力使用量の100％をクリーンで再生可能なエネルギーで賄っているため、トレーニングによる総市場ベースの温室効果ガス排出量は0トンCO2eqでした。

トレーニングデータ

概要：Llama 4 Scoutは約40兆トークンのマルチモーダルデータで事前学習され、Llama 4 Maverickは約22兆トークンのマルチモーダルデータで事前学習されました。これらのデータは、公開されているデータ、ライセンスされたデータ、およびMetaの製品やサービスからの情報の混合です。これには、InstagramやFacebookの公開投稿、および人々のMeta AIとのやり取りが含まれます。
データの新鮮さ：事前学習データのカットオフ日は2024年8月です。

ベンチマーク

事前学習モデル

カテゴリ	ベンチマーク	ショット数	メトリック	Llama 3.1 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
推論と知識	MMLU	5	macro_avg/acc_char	79.3	85.2	79.6	85.5
	MMLU - Pro	5	macro_avg/em	53.8	61.6	58.2	62.9
	MATH	4	em_maj1@1	41.6	53.5	50.3	61.2
コード	MBPP	3	pass@1	66.4	74.4	67.8	77.6
マルチリンガル	TydiQA	1	average/f1	29.9	34.3	31.5	31.7
画像	ChartQA	0	relaxed_accuracy	マルチモーダルサポートなし		83.4	85.3
	DocVQA	0	anls			89.4	91.6

命令調整済みモデル

カテゴリ	ベンチマーク	ショット数	メトリック	Llama 3.3 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
画像推論	MMMU	0	accuracy	マルチモーダルサポートなし		69.4	73.4
	MMMU Pro^	0	accuracy			52.2	59.6
	MathVista	0	accuracy			70.7	73.7
画像理解	ChartQA	0	relaxed_accuracy			88.8	90.0
	DocVQA (テスト)	0	anls			94.4	94.4
コーディング	LiveCodeBench (2024年10月1日 - 2025年2月1日)	0	pass@1	33.3	27.7	32.8	43.4
推論と知識	MMLU Pro	0	macro_avg/em	68.9	73.4	74.3	80.5
	GPQA Diamond	0	accuracy	50.5	49.0	57.2	69.8
マルチリンガル	MGSM	0	average/em	91.1	91.6	90.6	92.3
長文脈	MTOB (半分の本) eng -> kgv/kgv -> eng	-	chrF	コンテキストウィンドウは128K		42.2/36.6	54.0/46.4
	MTOB (全本) eng -> kgv/kgv -> eng	-	chrF			39.7/36.3	50.8/46.7

^MMMU Proの報告された数値は、標準タスクとビジョンタスクの平均です。

量子化

Llama 4 ScoutモデルはBF16ウェイトとしてリリースされていますが、オンザフライのint4量子化で単一のH100 GPUに収まります。Llama 4 Maverickモデルは、BF16およびFP8量子化ウェイトの両方としてリリースされています。FP8量子化ウェイトは、単一のH100 DGXホストに収まり、品質を維持しながら動作します。また、パフォーマンスの低下を最小限に抑えるオンザフライのint4量子化用のコードも提供しています。

セーフガード

リリースアプローチの一部として、リスクを管理するための3つの戦略を実施しています。

開発者が、Llamaがサポートするターゲットオーディエンスと使用ケースに対して、有用で安全かつ柔軟な体験を展開できるようにする。
開発者を、Llamaの機能を悪用して潜在的に危害を引き起こす可能性のある敵対的なユーザーから保護する。
コミュニティに対して、モデルの誤用を防止するための保護策を提供する。

モデルレベルの微調整

微調整データ：データ収集には多面的なアプローチを採用し、ベンダーからの人間が生成したデータと合成データを組み合わせて、潜在的なセーフティリスクを軽減しています。多数の大規模言語モデル（LLM）ベースの分類器を開発し、高品質のプロンプトと応答を選択し、データ品質管理を強化しています。
拒否率：Llama 3モデルで始めた作業を基に、Llama 4では良性なプロンプトに対するモデルの拒否率を低減することに重点を置いています。セーフティデータ戦略には、境界線上のプロンプトと敵対的なプロンプトの両方を含め、セーフティデータの応答を調整して、トーンガイドラインに従うようにしています。
トーン：Llama 3での拒否トーンに関する作業を拡張し、モデルの応答がより自然に聞こえるようにしています。説教的で過度に道徳的な言葉を取り除き、ヘッダー、リスト、テーブルなどの正しいフォーマットの使用を含むフォーマット問題を修正しています。これにより、システムプロンプトの操縦性と命令の追随性も向上し、モデルが指定されたトーンを容易に取り入れることができるようになっています。
システムプロンプト：Llama 4はより操縦性の高いモデルであり、応答を特定の開発者の成果に合わせて容易に調整することができます。効果的なシステムプロンプトは、大規模言語モデルのパフォーマンスを大幅に向上させることができます。特に、システムプロンプトの使用は、誤った拒否やLLMで一般的なテンプレート化されたまたは「説教的」な言語パターンを減らすのに有効であることがわかっています。また、会話性と適切なフォーマットの使用も向上させることができます。

Llama 4システム保護

大規模言語モデル（LLM）は、単独で展開することを想定しておらず、必要に応じて追加のガードレールを備えた全体的なAIシステムの一部として展開する必要があります。システム保護は、適切な有用性と安全性のアライメントを達成し、システムに固有のセーフティとセキュリティリスクを軽減し、モデルまたはシステムを外部ツールと統合するための重要な要素です。

評価

Llamaモデルを一般的な使用ケースおよび特定の機能について評価しました。一般的な使用ケースの評価では、チャットボット、視覚QAなどの最も一般的に構築されるアプリケーションのシステムのセーフティリスクを測定します。専用の敵対的評価データセットを構築し、LlamaモデルとLlama Guard 3で構成されるシステムを評価して、入力プロンプトと出力応答をフィルタリングしました。アプリケーションをコンテキスト内で評価することが重要であり、使用ケースに合わせた専用の評価データセットを構築することをお勧めします。必要に応じて、Prompt GuardとCode Shieldも利用できます。

重要なリスク

CBRNE（化学、生物学的、放射線、核、および爆発物質）に関する有用性：Llama 4に関する化学兵器および生物兵器の拡散に関連するリスクを評価するために、専門家が設計したその他のターゲット評価を適用し、Llama 4の使用が悪意のある行為者がこれらのタイプの兵器を使用して攻撃を計画または実行する能力を大幅に向上させる可能性があるかどうかを評価しました。また、このリスク領域に関連するコンテンツポリシーの違反について、追加のレッドチーミングと評価を実施しました。
子どもの安全：モデルにおける子どもの安全リスクを軽減するための最初のステップとして、データフィルタリングなどの事前学習方法を活用しています。学習後のモデルの子どもの安全リスクを評価するために、専門家チームがモデルが子どもの安全リスクをもたらす出力を生成する能力を評価します。これを元に、追加のモデル微調整と詳細なレッドチーミングエクササイズを実施しています。また、子どもの安全評価ベンチマークを拡張して、Llama 4のマルチ画像およびマルチリンガル機能をカバーするようにしています。
サイバー攻撃の可能性：サイバー評価では、Llama 4が壊滅的な脅威シナリオの結果を引き起こす可能性が十分にあるかどうかを調査しました。脅威モデリングエクササイズを実施し、キーな攻撃ベクトルにおけるスキルレベルと速度の両方の面で、オペレーションを自動化または人間の能力を強化するために必要な特定のモデル機能を特定しました。その後、Llama 4および同業者のモデルにおけるこれらの機能をテストするための課題を特定して開発しました。具体的には、Llama 4がサイバー攻撃を自動化し、セキュリティバウンダリを特定および悪用し、有害なワークフローを自動化する能力を評価することに焦点を当てました。全体的に、Llama 4モデルは、壊滅的なサイバー結果を引き起こす可能性のあるリスクをもたらさないことがわかりました。

コミュニティ

生成AIのセーフティには専門知識とツールが必要であり、オープンコミュニティの力を信じています。AI Alliance、Partnership on AI、MLCommonsなどのオープンコンソーシアムの積極的なメンバーであり、セーフティ標準化と透明性に積極的に貢献しています。コミュニティには、MLCommons Proof of Concept評価などの分類法を採用して、セーフティとコンテンツ評価に関する協力と透明性を促進することをお勧めします。信頼ツールはコミュニティが使用できるようにオープンソース化されており、クラウドサービスプロバイダーを含むエコシステムパートナー全体に広く配布されています。コミュニティの皆様には、Githubリポジトリへの貢献をお願いします。

また、Llama Impact Grants プログラムを設立し、教育、気候、およびオープンイノベーションの3つのカテゴリーで、MetaのLlamaモデルの最も魅力的な社会貢献アプリケーションを特定し、支援しています。数百の申請の中から選ばれた20のファイナリストはこちらで確認できます。

最後に、出力報告メカニズムやバグバウンティプログラムなどの一連のリソースを用意し、コミュニティの助けを借りてLlama技術を継続的に改善しています。

考慮事項と制限事項

当社のAIは表現の自由を重視し、人々が当社の技術を使って探求、議論、革新するのを支援します。私たちは人々の自律性を尊重し、AIとのやり取りや構築方法を自由に選択できるようにサポートします。当社のAIは、アイデアのオープンな交換を促進します。

このAIは、すべての人に役立ち、幅広い使用ケースで機能することを目的としています。したがって、さまざまな背景、経験、視点を持つ人々がアクセスできるように設計されています。Llama 4は、ユーザーとそのニーズをそのまま受け入れ、不要な判断を加えることなく、場合によっては問題に見えるコンテンツでも他の場合には価値ある目的を果たすことができることを理解しています。すべてのユーザーの自律性を尊重し、特に革新と進歩を促す自由な思考と表現の価値に配慮しています。

Llama 4は新しい技術であり、他の新しい技術と同様に、使用に関連するリスクがあります。これまでに行われたテストは、すべてのシナリオを網羅していないし、網羅することもできません。このため、他のLLMと同様に、Llama 4の潜在的な出力は事前に予測することができず、モデルは場合によってはユーザーのプロンプトに対して不正確または不快な応答を生成する可能性があります。したがって、Llama 4モデルのアプリケーションを展開する前に、開発者はモデルの特定のアプリケーションに合わせたセーフティテストと調整を行う必要があります。また、オープンソースコミュニティには、新たなリスクに対応する最先端のツールの研究と構築の目的でLlamaを使用することをお勧めします。詳細については、利用可能なリソース（当社のDeveloper Use Guide: AI Protections、Llama Protections ソリューション、およびその他のリソース）を参照してください。