Meta-Llama-3-8B-Instruct-GGUFオープンソースモデル - 超低ビット量子化による推論精度の向上とメモリ節約

ホーム

Meta Llama 3 8B Instruct GGUF

Mungertによって開発

Llama-3-8B-InstructベースのIQ-DynamicGate超低ビット量子化(1-2ビット)モデルで、精度適応量子化技術を採用し、極限のメモリ効率を維持しながら推論精度を向上させます。

大規模言語モデル英語#超低ビット量子化 #精度適応 #エッジコンピューティング最適化

ダウンロード数 1,343

リリース時間 : 3/17/2025

モデル概要

このモデルはMeta Llama 3シリーズの8Bパラメータ命令チューニング版で、特別な量子化処理が施されており、メモリ制約環境下での効率的な推論に適しています。

モデル特徴

IQ-DynamicGate量子化技術

階層戦略の精度適応量子化を採用し、1-2ビット超低ビット量子化下でも高い精度を維持

重要コンポーネント保護

埋め込み/出力層にQ5_K量子化を使用し、38%の誤差伝播を低減

極限のメモリ効率

IQ1_S量子化版はわずか2.1GBのメモリで動作し、エッジデバイス展開に最適

モデル能力

命令追従

テキスト生成

プログラミング支援

質問応答システム

使用事例

エッジコンピューティング

低消費電力デバイス展開

メモリ制約のあるIoTデバイスで大規模言語モデルを実行

IQ1_S量子化版はわずか2.1GBのメモリで動作

研究開発

超低ビット量子化研究

1-2ビット量子化技術の研究ベンチマークとして

IQ1_Mは困惑度43.9%低減

🚀 Meta-Llama-3-8B-Instruct GGUFモデル

このプロジェクトでは、Llama-3-8B-Instructモデルに対する超低ビット量子化手法を提供しています。この手法は、極限のメモリ効率を維持しながら精度を保つことができ、CPUやエッジデバイスなどのメモリ制約のある環境での使用に最適です。

✨ 主な機能

精度適応型量子化：最新の量子化手法で、超低ビットモデル（1 - 2ビット）に対して精度を維持しながら極限のメモリ効率を実現します。
層別の精度割り当て：各層に最適な量子化方法を割り当てることで、誤差の伝播を最小限に抑えます。
重要コンポーネントの保護：埋め込み層や出力層にはQ5_Kを使用することで、誤差の伝播を38％削減します。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションを省略します。

💻 使用例

このREADMEには具体的なコード例が記載されていないため、このセクションを省略します。

📚 詳細ドキュメント

ベンチマークの背景

すべてのテストは、以下の条件でLlama-3-8B-Instructを使用して行われました。

標準のパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化に同じプロンプトセットを使用

手法

動的精度割り当て：
- 最初と最後の25％の層 → IQ4_XS（選択された層）
- 中央の50％ → IQ2_XXS/IQ3_S（効率を向上）
重要コンポーネントの保護：
- 埋め込み層/出力層はQ5_Kを使用
- 標準の1 - 2ビット量子化と比較して、誤差の伝播を38％削減

量子化性能比較（Llama-3-8B）

量子化方式	標準PPL	DynamicGate PPL	Δ PPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

キー:

PPL = パープレキシティ（低いほど良い）
Δ PPL = 標準からDynamicGateへの変化率
速度 = 推論時間（CPU avx2、2048トークンコンテキスト）
サイズの差分は混合量子化のオーバーヘッドを反映

主な改善点:

🔥 IQ1_Mはパープレキシティを43.9％大幅に削減（27.46 → 15.41）
🚀 IQ2_Sは0.2GBのサイズ増加でパープレキシティを36.9％削減
⚡ IQ1_Sは1ビット量子化でも39.7％の精度向上を維持

トレードオフ:

すべてのバリアントはわずかなサイズの増加（0.1 - 0.3GB）
推論速度はほぼ同等（5％以内の差）

これらのモデルを使用するタイミング

📌 GPU VRAMにモデルを収める場合

✔ メモリ制約のあるデプロイメント

✔ 1 - 2ビットの誤差を許容できるCPUやエッジデバイス

✔ 超低ビット量子化の研究

適切なモデル形式の選択

正しいモデル形式の選択は、ハードウェアの能力とメモリ制約に依存します。

BF16（Brain Float 16） – BF16アクセラレーションが利用可能な場合に使用

高速な計算を目的とした16ビット浮動小数点形式で、良好な精度を維持します。
FP32と同様のダイナミックレンジを提供しながら、メモリ使用量を削減します。
ハードウェアがBF16アクセラレーションをサポートしている場合に推奨（デバイスのスペックを確認）。
FP32と比較してメモリフットプリントを削減した高性能推論に最適。

📌 BF16を使用する場合: ✔ ハードウェアがネイティブのBF16サポートを持っている場合（例：新しいGPU、TPU）。 ✔ メモリを節約しながらより高い精度が必要な場合。 ✔ モデルを別の形式に再量子化する予定の場合。

📌 BF16を避ける場合: ❌ ハードウェアがBF16をサポートしていない場合（FP32にフォールバックし、低速になる可能性があります）。 ❌ BF16最適化がない古いデバイスとの互換性が必要な場合。

F16（Float 16） – BF16よりも広くサポートされています

16ビット浮動小数点形式で、BF16よりも値の範囲は狭いが、高い精度を持っています。
FP16アクセラレーションをサポートするほとんどのデバイス（多くのGPUや一部のCPUを含む）で動作します。
BF16よりもわずかに低い数値精度ですが、一般的に推論には十分です。

📌 F16を使用する場合: ✔ ハードウェアがFP16をサポートしているが、BF16をサポートしていない場合。 ✔ 速度、メモリ使用量、精度のバランスが必要な場合。 ✔ FP16計算に最適化されたGPUまたは他のデバイスで実行している場合。

📌 F16を避ける場合: ❌ デバイスがネイティブのFP16サポートを持っていない場合（予想よりも低速になる可能性があります）。 ❌ メモリ制約がある場合。

量子化モデル（Q4_K、Q6_K、Q8など） – CPUと低VRAM推論用

量子化は、できるだけ精度を維持しながら、モデルサイズとメモリ使用量を削減します。

低ビットモデル（Q4_K） → 最小限のメモリ使用量に最適、精度が低い場合があります。
高ビットモデル（Q6_K、Q8_0） → より高い精度、より多くのメモリが必要です。

📌 量子化モデルを使用する場合: ✔ CPUで推論を実行し、最適化されたモデルが必要な場合。 ✔ デバイスのVRAMが少なく、全精度モデルをロードできない場合。 ✔ 適度な精度を維持しながらメモリフットプリントを削減したい場合。

📌 量子化モデルを避ける場合: ❌ 最大の精度が必要な場合（全精度モデルの方が適しています）。 ❌ ハードウェアに高精度形式（BF16/F16）用の十分なVRAMがある場合。

超低ビット量子化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

これらのモデルは、極限のメモリ効率を目的として最適化されており、低電力デバイスや大規模デプロイメントでメモリが重要な制約となる場合に最適です。

IQ3_XS：超低ビット量子化（3ビット）で、極限のメモリ効率を実現します。
- 使用ケース：Q4_Kでも大きすぎる超低メモリデバイスに最適。
- トレードオフ：高ビット量子化と比較して精度が低い。
IQ3_S：最大のメモリ効率を実現するための小さなブロックサイズ。
- 使用ケース：IQ3_XSが過度に制限的な低メモリデバイスに最適。
IQ3_M：IQ3_Sよりも高い精度を実現するための中ブロックサイズ。
- 使用ケース：IQ3_Sが制限的すぎる低メモリデバイスに適しています。
Q4_K：4ビット量子化

🔧 技術詳細

このREADMEには具体的な技術詳細が記載されていないため、このセクションを省略します。

📄 ライセンス

META LLAMA 3 コミュニティライセンス契約

Meta Llama 3バージョンリリース日: 2024年4月18日

「契約」とは、本契約書に定めるLlama素材の使用、複製、配布、および変更に関する条件を意味します。

「ドキュメント」とは、Metaがhttps://llama.meta.com/get-started/ で配布するMeta Llama 3に付随する仕様書、マニュアル、およびドキュメントを意味します。

「ライセンシー」または「あなた」とは、あなた、またはあなたの雇用主、または他の個人もしくは団体（あなたがその個人または団体の代理として本契約に入る場合）を意味し、適用される法律、規則、または規制に基づいて法的同意を与えるために必要な年齢であり、あなたがそれらの代理として本契約に入る場合には、あなたの雇用主またはその他の個人もしくは団体を拘束する法的権限を有する者を意味します。

「Meta Llama 3」とは、Metaがhttps://llama.meta.com/llama-downloads で配布する、機械学習モデルコード、学習済みモデルの重み、推論を可能にするコード、学習を可能にするコード、微調整を可能にするコード、およびその他の要素を含む、基礎となる大規模言語モデル、ソフトウェア、およびアルゴリズムを意味します。

「Llama素材」とは、総称して、本契約の下で利用可能となるMetaの独自のMeta Llama 3およびドキュメント（およびその一部）を意味します。

「Meta」または「私たち」とは、あなたが欧州経済地域（EEA）またはスイスに所在する場合、またはあなたが団体であり、その主たる事業場がEEAまたはスイスにある場合には、Meta Platforms Ireland Limitedを意味し、あなたがEEAまたはスイス以外に所在する場合には、Meta Platforms, Inc.を意味します。

ライセンス権利と再配布

a. 権利の付与。あなたには、Llama素材に含まれるMetaの知的財産権またはその他の権利の下で、非排他的、世界規模、非譲渡的、無償の限定ライセンスが付与され、Llama素材を使用、複製、配布、コピー、派生物を作成、および変更することができます。

b. 再配布と使用

i. あなたがLlama素材（またはその派生物）、またはそれらのいずれかを使用する製品もしくはサービス（他のAIモデルを含む）を配布または利用可能にする場合、あなたは（A）そのようなLlama素材とともに本契約のコピーを提供する必要があり、（B）関連するウェブサイト、ユーザーインターフェース、ブログ記事、アバウトページ、または製品ドキュメントに「Built with Meta Llama 3」を目立つように表示する必要があります。あなたがLlama素材を使用してAIモデルを作成、学習、微調整、またはその他の方法で改善し、そのAIモデルを配布または利用可能にする場合、あなたはそのようなAIモデル名の先頭に「Llama 3」を含める必要があります。

ii. あなたが統合されたエンドユーザー製品の一部として、ライセンシーからLlama素材またはその派生物を受け取った場合、本契約の第2条はあなたには適用されません。

iv. あなたのLlama素材の使用は、適用される法律および規制（貿易コンプライアンス法律および規制を含む）に準拠し、Llama素材の許容使用ポリシー（https://llama.meta.com/llama3/use-policy で入手可能）に従う必要があり、このポリシーは本契約に参照により組み込まれます。

v. あなたは、Llama素材またはLlama素材の出力もしくは結果を使用して、他の大規模言語モデル（Meta Llama 3またはその派生物を除く）を改善することはできません。

追加の商用条項。Meta Llama 3バージョンリリース日に、ライセンシーまたはライセンシーの関連会社によって提供される製品またはサービスの月間アクティブユーザー数が、前の暦月において7億人を超える場合、あなたはMetaからライセンスを申請する必要があり、Metaはその裁量によりあなたにライセンスを付与することができます。Metaが明示的にそのような権利をあなたに付与するまで、本契約に基づくいずれの権利も行使することはできません。
保証の否認。適用される法律により要求されない限り、Llama素材およびそれから得られるすべての出力および結果は「現状のまま」で提供され、いかなる種類の保証もなく、Metaは明示的および黙示的を問わず、すべての種類の保証を否認します。これには、限定するものではないが、権利、非侵害、商品性、または特定の目的への適合性に関する保証が含まれます。あなたは、Llama素材の使用または再配布の適切性を独自に判断し、Llama素材の使用およびそれから得られるすべての出力および結果に関連するすべてのリスクを負います。
責任の制限。いかなる場合も、Metaまたはその関連会社は、本契約に起因する契約、不法行為、過失、製品責任、またはその他の理論に基づく責任について、いかなる逸失利益または間接的、特殊的、結果的、偶発的、懲罰的損害賠償についても責任を負わないものとします。ただし、Metaまたはその関連会社がその可能性を知っていた場合でも同様です。
知的財産

a. 本契約に基づいて商標ライセンスは付与されず、Llama素材に関連して、Metaまたはライセンシーは、他方またはその関連会社が所有するまたは関連するいかなる名称または標章も使用することはできません。ただし、Llama素材の説明および再配布における合理的かつ慣習的な使用に必要な場合、または本条5(a)に定める場合を除きます。Metaは、あなたに「Llama 3」（「標章」）を使用するライセンスを、第1.b.i条の最後の文に準拠するために必要な範囲でのみ付与します。あなたは、Metaのブランドガイドライン（現在はhttps://about.meta.com/brand/resources/meta/company-brand/ でアクセス可能）に準拠する必要があります。あなたの標章の使用によって生じるすべての信頼性は、Metaの利益に帰属します。

b. MetaによるまたはMetaのためのLlama素材および派生物の所有権に関する限り、あなたが作成したLlama素材の派生物および変更について、あなたとMetaの間で、あなたはその派生物および変更の所有者であり、将来も所有者であり続けます。

c. あなたがMetaまたは他の団体に対して訴訟またはその他の手続きを提起し（訴訟における交差請求または反訴を含む）、Llama素材またはMeta Llama 3の出力もしくは結果、またはそれらのいずれかの一部が、あなたが所有するまたはライセンスすることができる知的財産権または他の権利の侵害を構成すると主張する場合、本契約に基づいてあなたに付与されたすべてのライセンスは、その訴訟または請求が提起された日から終了します。あなたは、Llama素材の使用または配布に起因するまたは関連する第三者のいかなる請求からも、Metaを補償し、免責する責任があります。

契約期間と終了。本契約の期間は、あなたが本契約を受諾した日またはLlama素材にアクセスした日から開始し、本契約の条件に従って終了するまで有効です。あなたが本契約のいずれかの条件に違反した場合、Metaは本契約を終了することができます。本契約が終了した場合、あなたはLlama素材を削除し、使用を停止する必要があります。第3条、第4条、および第7条は、本契約の終了後も有効です。
準拠法と管轄権。本契約は、カリフォルニア州の法律に基づいて解釈および管轄され、法の選択の原則は適用されません。国際商品売買契約に関する国際連合条約は本契約には適用されません。カリフォルニア州の裁判所が、本契約に起因するいかなる紛争についても排他的な管轄権を有します。

Meta Llama 3許容使用ポリシー

Metaは、そのツールや機能、特にMeta Llama 3の安全で公正な使用を促進することにコミットしています。あなたがMeta Llama 3にアクセスまたは使用する場合、この許容使用ポリシー（「ポリシー」）に同意することになります。このポリシーの最新版はhttps://llama.meta.com/llama3/use-policy で確認できます。

禁止される使用方法

私たちは、誰もがMeta Llama 3を安全かつ責任を持って使用することを望んでいます。あなたは、以下のことを行わないこと、または他の人に行わせないことに同意するものとします。

法律または他人の権利を侵害すること、具体的には：
1. 違法または不法な活動やコンテンツを行い、促進し、生成し、寄与し、助長し、計画し、扇動し、またはさらに発展させること、例えば：
  1. 暴力またはテロリズム
  2. 子供の搾取または危害、子供の搾取的コンテンツの勧誘、作成、取得、または流通、または児童性虐待素材の報告の不履行
  3. 人身売買、搾取、および性的暴力
  4. 未成年者への情報や素材の違法な配布、猥褻な素材を含む、またはそのような情報や素材に関連して法律で要求される年齢制限を設けないこと
  5. 性的な勧誘
  6. その他の犯罪行為
2. 個人または個人のグループに対する嫌がらせ、虐待、脅迫、またはいじめを行い、促進し、扇動し、または助長すること
3. 雇用、雇用福利、信用、住宅、その他の経済的利益、またはその他の重要な商品やサービスの提供における差別またはその他の不法または有害な行為を行い、促進し、扇動し、または助長すること
4. 金融、法律、医療/健康、または関連する専門分野を含むがこれに限定されない、いかなる職業の無許可または無免許の実践を行うこと
5. 適用される法律により必要な権利と同意なしに、個人に関する健康、人口統計、またはその他の敏感な個人情報またはプライベート情報を収集、処理、開示、生成、または推測すること
6. 第三者の権利を侵害し、盗用し、またはその他の方法で違反するいかなる行動を行い、またはコンテンツを生成すること、Llama素材を使用する製品またはサービスの出力または結果を含む
7. 悪意のあるコード、マルウェア、コンピュータウイルスを作成、生成、または助長すること、またはウェブサイトまたはコンピュータシステムの正常な動作、整合性、操作、または外観を無効化、過負荷、妨害、または損なうことができる他のことを行うこと
個人に対する死亡または身体的危害のリスクを伴う活動の計画または開発を行い、促進し、扇動し、助長し、または支援すること、具体的にはMeta Llama 3を以下のように使用すること：
1. 軍事、戦争、原子力産業または応用、諜報活動、米国国務省が維持する国際兵器輸出規制（ITAR）の対象となる素材または活動への使用
2. 銃器および違法な武器（武器開発を含む）
3. 違法薬物および規制/管理物質
4. 重要インフラストラクチャ、輸送技術、または重機械の操作
5. 自傷行為または他人への危害、自殺、切り傷、および摂食障害を含む
6. 個人に対する暴力、虐待、または身体的危害を扇動または促進することを目的としたコンテンツ
他人を意図的に欺瞞または誤解させること、具体的にはMeta Llama 3を以下のように使用すること：
1. 詐欺を生成し、促進し、またはさらに発展させること、または虚偽情報の作成または促進
2. 中傷的なコンテンツを生成し、促進し、またはさらに発展させること、中傷的な声明、画像、または他のコンテンツの作成を含む
3. スパムを生成し、促進し、またはさらに配布すること
4. 同意、許可、または法的権利なしに他人をなりすますこと
5. Meta Llama 3の使用または出力が人間によって生成されたものであると表現すること
6. 偽のオンラインエンゲージメントを生成または促進すること、偽のレビューや他の偽のオンラインエンゲージメントの手段を含む
あなたのAIシステムの既知の危険性をエンドユーザーに適切に開示しないこと

このポリシーの違反、ソフトウェアの「バグ」、またはこのポリシーの違反につながる可能性のあるその他の問題は、以下のいずれかの方法で報告してください。 * モデルの問題を報告する：https://github.com/meta-llama/llama3 * モデルによって生成された危険なコンテンツを報告する：developers.facebook.com/llama_output_feedback * バグやセキュリティ上の懸念を報告する：facebook.com/whitehat/info * 許容使用ポリシーの違反またはMeta Llama 3の無許可使用を報告する：LlamaUseReport@meta.com