Llama 3.2 3B Instruct GGUF

Mungertによって開発

Llama-3.2-3B-Instruct GGUFはMetaがリリースした3Bパラメータ規模の大規模言語モデルで、IQ-DynamicGate技術を用いた超低ビット量子化(1-2ビット)を採用し、メモリ効率を維持しながら推論性能を最適化しています。

大規模言語モデル複数言語対応#超低ビット量子化 #多言語命令 #精度適応

ダウンロード数 656

リリース時間 : 4/25/2025

モデル概要

これはLlama 3.2アーキテクチャをベースとした3Bパラメータ規模の命令微調整モデルで、特に超低ビット量子化シナリオに最適化されており、多言語テキスト生成や理解タスクに適しています。

モデル特徴

IQ-DynamicGate量子化技術

革新的な1-2ビット超低ビット量子化手法を採用し、精度適応技術により異なる層に最適な量子化戦略を適用

多言語サポート

8つの主要言語のテキスト生成と理解をサポート

命令最適化

命令微調整を経ており、特に会話やタスク完了シナリオに適している

モデル能力

多言語テキスト生成

命令理解と実行

対話システム

コンテンツ作成支援

使用事例

インテリジェントアシスタント

多言語カスタマーサービスボット

複数言語をサポートする自動カスタマーサービスシステムとして展開

一般的な顧客問い合わせを処理可能、8言語をサポート

コンテンツ作成

多言語コンテンツ生成

クリエイターが多言語版マーケティングコンテンツを生成するのを支援

コンテンツスタイルの一貫性を保ちながら多言語変換が可能

language:

en
de
fr
it
pt
hi
es
th library_name: transformers pipeline_tag: text-generation tags:
facebook
meta
pytorch
llama
llama-3 license: llama3.2 extra_gated_prompt: >-

LLAMA 3.2 コミュニティライセンス契約

Llama 3.2 バージョンリリース日: 2024年9月25日

「本契約」とは、Llama素材の使用、複製、配布および改変に関する本契約に定める条件を意味します。

「ドキュメンテーション」とは、Metaがhttps://llama.meta.com/doc/overviewで配布するLlama 3.2に付随する仕様書、マニュアルおよびドキュメントを意味します。

「ライセンシー」または「あなた」とは、適用される法律、規則または規制の下で法的同意を提供するのに必要な年齢に達しており、本契約を締結する際に雇用主またはその他の個人または団体を法的に拘束する権限を有する、あなた、またはあなたの雇用主またはその他の個人または団体（あなたがそのような個人または団体に代わって本契約を締結する場合）を意味します。

「Llama 3.2」とは、https://www.llama.com/llama-downloadsでMetaが配布する、機械学習モデルコード、訓練済みモデル重み、推論を可能にするコード、訓練を可能にするコード、ファインチューニングを可能にするコード、およびその他の要素を含む、基盤となる大規模言語モデルおよびソフトウェアとアルゴリズムを意味します。

「Llama素材」とは、本契約の下で利用可能となる、Metaの独自のLlama 3.2およびドキュメンテーション（およびその一部）を総称して意味します。

「Meta」または「私たち」とは、Meta Platforms Ireland Limited（あなたがEEAまたはスイスに所在している場合、または団体の場合、主たる事業所がEEAまたはスイスにある場合）およびMeta Platforms, Inc.（あなたがEEAまたはスイス以外に所在している場合）を意味します。

下記の「同意する」をクリックするか、Llama素材のいかなる部分または要素を使用または配布することにより、あなたは本契約に拘束されることに同意するものとします。
1. ライセンス権利および再配布。
a. 権利の付与。あなたは、Llama素材に具現化されたMetaの知的財産またはその他の権利に基づき、Llama素材を使用、複製、配布、複写、派生作品を作成し、および改変するための、非独占的、世界的、非譲渡的かつロイヤリティ無料の限定ライセンスを付与されます。

b. 再配布および使用。

i. あなたがLlama素材（またはそのいかなる派生作品）、またはそれらを含む製品またはサービス（別のAIモデルを含む）を配布または利用可能にする場合、(A) そのようなLlama素材に本契約の写しを添付すること、および(B) 関連するウェブサイト、ユーザーインターフェース、ブログ記事、アバウトページ、または製品ドキュメントに「Built with Llama」を目立つように表示するものとします。Llama素材またはLlama素材の出力または結果を使用して、配布または利用可能となるAIモデルを作成、訓練、ファインチューニング、またはその他の方法で改善する場合、そのようなAIモデル名の先頭に「Llama」を含めるものとします。

ii. あなたが統合されたエンドユーザー製品の一部としてライセンシーからLlama素材またはそのいかなる派生作品を受領する場合、本契約の第2条はあなたには適用されません。

iii. あなたが配布するLlama素材のすべての複製に、そのような複製の一部として配布される「Notice」テキストファイル内に以下の帰属表示を保持する必要があります：「Llama 3.2はLlama 3.2 Community Licenseの下でライセンスされており、Copyright © Meta Platforms, Inc. All Rights Reserved.」

iv. あなたのLlama素材の使用は、適用される法律および規制（貿易コンプライアンス法および規制を含む）に準拠し、Llama素材の許容可能な使用ポリシー（https://www.llama.com/llama3_2/use-policyで利用可能）に従う必要があり、これは本契約に参照により組み込まれます。
1. 追加の商業的条件。Llama 3.2バージョンリリース日において、ライセンシーまたはライセンシーの関連会社により利用可能にされる製品またはサービスの月間アクティブユーザーが前暦月において7億人を超える場合、あなたはMetaからライセンスを請求する必要があり、Metaはその単独の裁量でこれを付与する場合があり、Metaが明示的にそのような権利を付与するまで、あなたは本契約の下でのいかなる権利も行使する権限を有しません。
2. 保証の免責。適用される法律で要求されない限り、Llama素材およびそのいかなる出力と結果は「現状有姿」で提供され、いかなる種類の保証もなく、Metaは、明示的または黙示的を問わず、タイトル、非侵害、商品性、または特定の目的への適合性を含むがこれに限られない、いかなる種類の保証も否認します。あなたは、Llama素材の使用または再配布の適切性を決定する唯一の責任を負い、Llama素材およびそのいかなる出力と結果の使用に関連するいかなるリスクも負担するものとします。
3. 責任の制限。いかなる場合においても、Metaまたはその関連会社は、本契約に起因して、契約、不法行為、過失、製品責任、またはその他の法理論の下で、失われた利益またはいかなる間接的、特別的、結果的、付随的、懲罰的または例示的損害について責任を負わず、Metaまたはその関連会社がそのような損害の可能性について知らされていた場合でも同様とします。
4. 知的財産。
a. 本契約の下では商標ライセンスは付与されず、Llama素材に関連して、Metaもライセンシーも、Llama素材の記述および再配布における合理的かつ慣習的な使用に必要な場合または本第5条(a)に定める場合を除き、相手方またはその関連会社が所有または関連するいかなる名称または商標も使用することはできません。Metaはここに、第1条(b)(i)の最後の文に準拠するために必要な範囲でのみ「Llama」（「商標」）を使用するライセンスをあなたに付与します。あなたはMetaのブランドガイドライン（現在https://about.meta.com/brand/resources/meta/company-brand/でアクセス可能）に従うものとします。商標の使用から生じるすべての信用はMetaに帰属します。

b. MetaがLlama素材およびMetaが作成またはMetaのために作成された派生作品を所有することに従い、あなたが作成したLlama素材のいかなる派生作品および改変に関して、あなたとMetaの間で、あなたはそのような派生作品および改変の所有者であり、引き続き所有者であるものとします。

c. あなたが、Llama素材またはLlama 3.2の出力または結果、またはそのいかなる部分が、あなたが所有またはライセンス可能な知的財産またはその他の権利の侵害を構成すると主張して、Metaまたはいかなる団体（訴訟における交叉請求または反訴を含む）に対して訴訟またはその他の手続きを提起する場合、本契約の下であなたに付与されたいかなるライセンスも、そのような訴訟または請求が提起または開始された日をもって終了するものとします。あなたは、Llama素材の使用または配布に起因または関連して第三者から生じるいかなる請求からもMetaを補償し、免責するものとします。
1. 期間および終了。本契約の期間は、あなたが本契約を受諾した時またはLlama素材にアクセスした時に開始し、本契約の条件に従って終了するまで完全な効力を有して継続するものとします。Metaは、あなたが本契約のいかなる条件に違反した場合、本契約を終了することができます。本契約の終了時、あなたはLlama素材の使用を停止し、削除するものとします。第3条、第4条および第7条は、本契約の終了後も存続するものとします。
2. 準拠法および管轄。本契約は、カリフォルニア州の法律に準拠し、解釈されるものとし、国際物品売買契約に関する国際連合条約は本契約には適用されません。本契約から生じるいかなる紛争についても、カリフォルニア州の裁判所が排他的管轄権を有するものとします。
Llama 3.2 許容可能な使用ポリシー

Metaは、Llama 3.2を含むそのツールおよび機能の安全かつ公正な使用を促進することを約束します。 Llama 3.2にアクセスまたは使用する場合、あなたは本許容可能な使用ポリシー（「ポリシー」）に同意するものとします。本ポリシーの最新版はhttps://www.llama.com/llama3_2/use-policyで確認できます。

禁止される使用

私たちは、誰もがLlama 3.2を安全かつ責任を持って使用することを望んでいます。あなたは、Llama 3.2を以下の目的で使用したり、他の者に使用させたりしないことに同意するものとします：
1. 法律または他人の権利を侵害すること、以下を含む：
  1. 以下を含む、違法または不法な活動またはコンテンツに関与、促進、生成、寄与、奨励、計画、扇動、またはさらに進めること：
    1. 暴力またはテロリズム
    2. 子供の搾取または危害、児童性的虐待コンテンツの勧誘、作成、取得、または頒布、または児童性的虐待素材の報告の不履行を含む
    3. 人身取引、搾取、および性的暴力
    4. 未成年者への情報または資料の違法な頒布、わいせつな資料を含む、またはそのような情報または資料に関連して法的に必要な年齢制限を実施しないこと
    5. 性的勧誘
    6. その他の犯罪行為
  2. 個人または個人のグループに対する嫌がらせ、虐待、脅迫、またはいじめに関与、促進、扇動、または容易にすること
  3. 雇用、雇用福利厚生、信用、住宅、その他の経済的利益、またはその他の必須の財およびサービスの提供において、差別またはその他の違法または有害な行為に関与、促進、扇動、または容易にすること
  4. 金融、法律、医療/健康、または関連する専門職を含むがこれに限らない、いかなる職業の無許可または無免許の実践に関与すること
  5. 個人の身元、健康、または人口統計情報を含む、個人に関する私的または機密情報を、適用される法律に従ってその権利を取得していない限り、収集、処理、開示、生成、または推論すること
  6. 第三者の権利を侵害、盗用、またはその他の方法で侵害するいかなる行動またはコンテンツの生成に関与または容易にすること、またはLlama素材を使用したいかなる製品またはサービスの出力または結果を含む
  7. マルウェア、コンピュータウイルスを作成、生成、または容易にすること、またはウェブサイトまたはコンピュータシステムの適切な動作、完全性、操作または外観を無効化、過負荷、干渉、または損なういかなる行為を行うこと
  8. 使用制限またはその他の安全対策を意図的に回避または削除する、またはMetaにより無効化された機能を有効にするいかなる行動に関与、または容易にすること
2. 個人に対する死亡または身体的危害のリスクを伴う活動の計画または開発に関与、促進、扇動、容易に、または支援すること、Llama 3.2の使用に関連して以下を含む： 8. 軍事、戦争、核産業または用途、スパイ活動、国際武器取引規則（ITAR）または米国生物兵器テロ防止法（1989年）または化学兵器禁止条約実施法（1997年）の対象となる資料または活動 9. 銃器および違法な武器（武器開発を含む） 10. 違法な薬物および規制/管理された物質 11. 重要インフラ、輸送技術、または重機械の操作 12. 自傷行為または他人への危害、自殺、自傷、および摂食障害を含む 13. 個人に対する暴力、虐待、またはいかなる身体的危害を扇動または促進することを意図したコンテンツ
3. 他人を意図的に欺くまたは誤解させること、Llama 3.2の使用に関連して以下を含む： 14. 詐欺または偽情報の作成または促進の生成、促進、またはさらに進めること 15. 中傷的なコンテンツ、中傷的な声明、画像、またはその他のコンテンツの作成を含む、生成、促進、またはさらに頒布すること 16. スパムの生成、促進、またはさらに頒布すること 17. 同意、許可、または法的権利なしに他の個人を偽装すること 18. Llama 3.2または出力の使用が人間によって生成されたものであると表示すること 19. 偽のオンライン関与、偽のレビューおよびその他の偽のオンライン関与の手段を含む、生成または容易にすること
4. AIシステムの既知の危険性をエンドユーザーに適切に開示しないこと
5. 違法なコンテンツを生成する、または違法または有害な行為に関与するように設計された第三者ツール、モデル、またはソフトウェアと相互作用し、および/またはそのようなツール、モデル、またはソフトウェアの出力がMetaまたはLlama 3.2に関連していると表示すること
Llama 3.2に含まれるマルチモーダルモデルに関して、欧州連合に居住する個人または主たる事業所を有する会社である場合、Llama 3.2 Community License Agreementの第1条(a)に基づく権利は付与されません。この制限は、そのようなマルチモーダルモデルを組み込んだ製品またはサービスのエンドユーザーには適用されません。

本ポリシーの違反、ソフトウェアの「バグ」、または本ポリシーの違反につながる可能性のあるその他の問題を以下のいずれかの方法で報告してください：
- モデルに関する問題の報告: https://github.com/meta-llama/llama-models/issues
- モデルによって生成されたリスクのあるコンテンツの報告: developers.facebook.com/llama_output_feedback
- バグおよびセキュリティ上の懸念の報告: facebook.com/whitehat/info
- 許容可能な使用ポリシーの違反またはLlama 3.2の無許可使用の報告: LlamaUseReport@meta.com extra_gated_fields: 名: text 姓: text 生年月日: date_picker 国: country 所属: text 職種: type: select options:
  - 学生
  - 大学院研究者
  - AI研究者
  - AI開発者/エンジニア
  - 記者
  - その他 geo: ip_location 下記の「送信」をクリックすることで、ライセンスの条件に同意し、提供する情報がMetaプライバシーポリシーに従って収集、保存、処理、共有されることを確認します: checkbox extra_gated_description: >- 提供いただいた情報は、Metaプライバシーポリシーに従って収集、保存、処理、共有されます。 extra_gated_button_content: 送信

Llama-3.2-3B-Instruct GGUFモデル

IQ-DynamicGateによる超低ビット量子化（1-2ビット）

最新の量子化手法では、精度適応型量子化を導入し、Llama-3-8Bで実証済みの改善を実現しています。このアプローチでは、レイヤーごとの戦略を使用して、極端なメモリ効率を維持しながら精度を保持します。

ベンチマークコンテキスト

すべてのテストはLlama-3-8B-Instructを使用して実施されました：

標準的なパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化で同じプロンプトセットを使用

手法

動的精度割り当て:
- 最初と最後の25%のレイヤー → IQ4_XS（選択されたレイヤー）
- 中間の50% → IQ2_XXS/IQ3_S（効率向上）
重要なコンポーネント保護:
- 埋め込み/出力レイヤーはQ5_Kを使用
- 標準の1-2ビットと比較して誤差伝播を38%削減

量子化性能比較（Llama-3-8B）

量子化	標準PPL	DynamicGate PPL	Δ PPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

キー:

PPL = パープレキシティ（低いほど良い）
Δ PPL = 標準からDynamicGateへの変化率
速度 = 推論時間（CPU avx2、2048トークンコンテキスト）
サイズの違いは混合量子化のオーバーヘッドを反映

主な改善点:

🔥 IQ1_Mは43.9%のパープレキシティ削減（27.46 → 15.41）を達成
🚀 IQ2_Sはパープレキシティを36.9%削減しながら、わずか0.2GBの追加
⚡ IQ1_Sは1ビット量子化にもかかわらず39.7%の精度向上を維持

トレードオフ:

すべてのバリアントでわずかなサイズ増加（0.1-0.3GB）
推論速度は同等（<5%の差）

これらのモデルを使用する場合

📌 GPU VRAMにモデルを収める

✔ メモリ制約のある展開

✔ 1-2ビットの誤差が許容されるCPUおよびエッジデバイス

✔ 超低ビット量子化の研究

適切なモデルフォーマットの選択

適切なモデルフォーマットの選択は、ハードウェア能力とメモリ制約に依存します。

BF16（Brain Float 16）– BF16アクセラレーションが利用可能な場合に使用

高速計算のために設計された16ビット浮動小数点形式で、良好な精度を保持します。
FP32と同様のダイナミックレンジを提供しながら、メモリ使用量を削減します。
ハードウェアがBF16アクセラレーションをサポートしている場合に推奨（デバイスの仕様を確認）。
FP32と比較してメモリフットプリントを削減した高性能推論に最適。

📌 BF16を使用する場合:
✔ ハードウェアがBF16サポートをネイティブに備えている（例：新しいGPU、TPU）。
✔ より高い精度が必要で、メモリを節約したい場合。
✔ モデルを別のフォーマットに再量子化する予定がある場合。

📌 BF16を避ける場合:
❌ ハードウェアがBF16をサポートしていない（FP32にフォールバックし、遅くなる可能性あり）。
❌ BF16最適化のない古いデバイスとの互換性が必要な場合。

F16（Float 16）– BF16よりも広くサポート

16ビット浮動小数点形式で、高精度ですが、BF16よりも値の範囲が狭いです。
多くのGPUや一部のCPUを含む、FP16アクセラレーションをサポートするほとんどのデバイスで動作。
BF16よりもわずかに数値精度が低いですが、一般的に推論には十分。

📌 F16を使用する場合:
✔ ハードウェアがFP16をサポートしているが、BF16はサポートしていない場合。
✔ 速度、メモリ使用量、精度のバランスが必要な場合。
✔ GPUまたはFP16計算に最適化された別のデバイスで実行する場合。

📌 F16を避ける場合:
❌ デバイスがネイティブFP16サポートを欠いている（期待よりも遅くなる可能性あり）。
❌ メモリ制限がある場合。

量子化モデル（Q4_K、Q6_K、Q8など）– CPUおよび低VRAM推論用

量子化により、モデルサイズとメモリ使用量を削減しながら、可能な限り精度を維持します。

低ビットモデル（Q4_K） → 最小メモリ使用に最適、精度が低い可能性あり。
高ビットモデル（Q6_K、Q8_0） → 精度向上、より多くのメモリを必要。

📌 量子化モデルを使用する場合:
✔ CPUで推論を実行し、最適化されたモデルが必要な場合。
✔ デバイスのVRAMが低く、完全精度モデルをロードできない場合。
✔ メモリフットプリントを削減しながら、合理的な精度を維持したい場合。

📌 量子化モデルを避ける場合:
❌ 最大精度が必要な場合（完全精度モデルがより適している）。
❌ ハードウェアがより高精度なフォーマット（BF16/F16）に対応する十分なVRAMを有している場合。

超低ビット量子化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

これらのモデルは極端なメモリ効率のために最適化されており、低電力デバイスやメモリが重要な制約となる大規模展開に最適です。

IQ3_XS: 超低ビット量子化（3ビット）で極端なメモリ効率。
- 使用例: Q4_Kでも大きすぎる超低メモリデバイスに最適。
- トレードオフ: 高ビット量子化と比較して精度が低い。
IQ3_S: 最大メモリ効率のための小さなブロックサイズ。
- 使用例: IQ3_XSが過度に攻撃的である低メモリデバイスに最適。
IQ3_M: IQ3_Sよりも優れた精度を提供する中ブロックサイズ。
- 使用例: IQ3_Sが制限的である低メモリデバイスに適しています。
Q4_K: より良い精度のためにブロック単位最適化を備えた4ビット量子化。
- 使用例: Q6_Kが大きすぎる低メモリデバイスに最適。
Q4_0: ARMデバイス向けに最適化された純粋な4ビット量子化。
- 使用例: ARMベースのデバイスまたは低メモリ環境に最適。

要約表: モデルフォーマット選択

モデルフォーマット	精度	メモリ使用量	デバイス要件	最適な使用例
BF16	最高	高	BF16対応GPU/CPU	メモリ削減を伴う高速推論
F16	高	高	FP16対応デバイス	BF16が利用できない場合のGPU推論
Q4_K	中低	低	CPUまたは低VRAMデバイス	メモリ制約環境に最適
Q6_K	中	中	より多くのメモリを有するCPU	量子化されながらもより良い精度
Q8_0	高	中	十分なVRAMを有するCPUまたはGPU	量子化モデル中最も高精度
IQ3_XS	非常に低	非常に低	超低メモリデバイス	極端なメモリ効率と低精度
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppがARMデバイス向けに最適化