Qwen3 30B A3B GGUF
モデル概要
モデル特徴
モデル能力
使用事例
base_model:
- Qwen/Qwen3-30B-A3B datasets:
- eaddario/imatrix-calibration language:
- en license:
- apache-2.0 pipeline_tag: text-generation tags:
- gguf
- quant
- experimental
Qwen/Qwen3-30B-A3Bの実験的レイヤー単位量子化
オリジナルモデル: Qwen/Qwen3-30B-A3B
オリジナルモデル作成者による説明:
Qwen3はQwenシリーズの最新世代大規模言語モデルで、密結合モデルとMixture-of-Experts(MoE)モデルの包括的なスイートを提供します。大規模なトレーニングに基づき、Qwen3は推論能力、指示追従能力、エージェント機能、多言語サポートにおいて画期的な進歩を達成し、以下の主要な特徴を持ちます:
- 思考モード(複雑な論理的推論、数学、コーディング用)と非思考モード(効率的な汎用対話用)の単一モデル内でのシームレスな切り替えを独自にサポートし、様々なシナリオで最適なパフォーマンスを保証
- 推論能力の大幅な強化 - 数学、コード生成、常識的論理推論において、従来のQwQ(思考モード時)やQwen2.5指示モデル(非思考モード時)を凌駕
- 優れた人間の嗜好への適合性 - 創造的執筆、ロールプレイ、多段階対話、指示追従において卓越し、より自然で魅力的な会話体験を提供
- エージェント機能の専門性 - 思考/非思考モード両方で外部ツールとの正確な統合を可能にし、複雑なエージェントベースのタスクにおいてオープンソースモデル中で最高の性能を達成
- 100以上の言語と方言をサポートし、多言語指示追従と翻訳において強力な能力を発揮
これらの実験的バージョンを使用する前に必ずお読みください!
個人的な関心領域は、一般向けハードウェア、デスクトップ、ノートPC、モバイル、エッジデバイスなどのリソース制約環境でのLLM推論パフォーマンスを最適化する方法を見つけることです。これにはアーキテクチャ簡素化や知識蒸留など多くのアプローチがありますが、主に量子化と枝刈りに焦点を当てています。
これらの実験的バージョンを生成する方法はSqueezing Tensor Bits: the quest for smaller LLMsで説明されていますが、大まかにはカスタム版のllama-imatrix
とllama-quantize
を使用して影響力のあるテンソルを特定し、重要な層を高ビット精度で、重要度の低い層を低ビットで量子化するものです。このプロセスはDumitruらの研究Layer-Wise Quantization: A Pragmatic and Effective Method for Quantizing LLMs Beyond Integer Bit-Levelsにも一部触発されています。
バージョンb5125以降、llama-quantizeはテンソル単位量子化(TWQ)(ユーザー定義テンソルを特定レベルで量子化)とレイヤー単位量子化(LWQ)(テンソル/層ごとに異なる量子化タイプを選択)の両方を実行可能です。例えば、--tensor-type attn_v=q6_k
は全てのAttention Valueテンソルをq6_kで量子化(TWQ)し、--tensor-type "\.([0-9]|1[01257]|31)\.attn_k=q4_k"
は層0-9、10、11、12、15、17、31のAttention Keyテンソルをq4_kで量子化し、残りをデフォルト値のままにします(LWQ)。
改造版llama-imatrixはテンソル選択プロセスを導く有用な統計を生成し、--show-statistics
で以下を表示します:
- Œ£(Bias): テンソル上の全活性化の合計(重要度スコア)
- Min & Max: 活性化値の最小値と最大値
- Œº & œÉ: 活性化の平均と標準偏差
- % Active: 平均活性化が非常に小さい閾値(1e-6)を超える要素の割合(推論中のテンソルの活性/休眠状態判断に有用)
- N: テンソル内の活性化数
- Entropy: 活性化分布のエントロピー(ビット単位、標準シャノンエントロピー測定)
- E (norm): 正規化エントロピー
- ZD Score: レイヤー単位量子化論文の3.1節で説明されたz-score分布
- CosSim: 前層に対する同種テンソル間のコサイン類似度(例: blk.7.attn_kとblk.6.attn_k)
統計は個々のテンソルごとに計算され、同種テンソル間の比較にのみ使用すべきです。例えば、層10のattn_kが層7のattn_kより**Œ£(Bias)**が大きいから推論中に影響力が高いと結論するのは妥当ですが、attn_kとffn_down間で同様の結論を出すのは適切ではありません。
これらの変更をコアllama.cppプロジェクトにマージするためのプルリクエストがあります。マージされるかは不明なため、当面は改造版がGitHubで利用可能です。
テストと比較にはUnsloth(DanielとMichael Hanの非常に先進的な作業!)とBartowski(後述のクレジット参照)のモデルを使用しますが、必要なモデルのバージョンが提供されていない場合、全てのテストと比較は単純にllama-quantize
を実行して得られた最適化なしの量子化モデルに対して行われます。
全ての実験的バージョンはeaddario/imatrix-calibrationのキャリブレーションデータセットから生成された適切なimatrixを使用して生成されました。重要性マトリックス(imatrix)は本質的に、機械学習モデル内の異なる特徴やパラメータの相対的重要度をスコアリングする構造化表現であり、量子化と枝刈りの負の影響を相殺するのに役立ちます。
これらのモデルを生成するプロセスはおおよそ以下の通りです:
- オリジナルモデルのテンソルをGGUF F16*に変換
- wikitext-2-raw-v1データセットを使用してF16モデルのPerplexityスコア(ベースライン)を推定し、logitsを保存
- 選択したキャリブレーションデータセットからimatrixを生成
- 改造版
llama-imatrix
を使用してテンソルと層の重要度スコア寄与を決定 - 各テンソルに適切な量子化レベルを選択し、
llama-quantize
でモデルを量子化 - 各量子化モデルのPerplexity、KL Divergence、ARC(Easy+Challenge)、HellaSwag、MMLU、Truthful QA、WinoGrandeスコアを計算
- 最高スコアのバージョンを保持
- 必要な全ての量子化が作成されるまで繰り返し。Q3/IQ3未満の量子化は目的に適さないため通常生成しませんが、リクエストに応じて他の量子化を提供可能
*BF16が望ましいですが、AppleのGPUはまだサポートしておらず、全ての操作がCPUで実行されるため許容できないほど遅くなります。近い将来に変更される予定ですが、それまではApple製品を使用する場合はBF16タグの付いたモデルは避けてください
モデル
サイズ(GB単位)
モデル | Bartowski | Unsltoth | Repo | 縮小率 |
---|---|---|---|---|
Qwen3-30B-A3B-IQ3_M | 14.1 | N/A | 14.0 | 0.7% |
Qwen3-30B-A3B-IQ3_S | 12.7 | N/A | 13.3 | -4.7% |
Qwen3-30B-A3B-IQ4_NL | 17.4 | 17.3 | 17.1 | 1.7% |
Qwen3-30B-A3B-Q3_K_L | 14.6 | N/A | 14.2 | 2.7% |
Qwen3-30B-A3B-Q3_K_M | 14.1 | 14.7 | 13.5 | 4.3% |
Qwen3-30B-A3B-Q3_K_S | 13.4 | 13.3 | 12.8 | 4.5% |
Qwen3-30B-A3B-Q4_K_M | 18.6 | 18.6 | 17.1 | 8.1% |
Qwen3-30B-A3B-Q4_K_S | 18.0 | 17.5 | 16.5 | 8.3% |
Qwen3-30B-A3B-Q5_K_M | 21.7 | 21.7 | 20.4 | 6.0% |
Qwen3-30B-A3B-Q5_K_S | 21.1 | 21.1 | 19.7 | 6.6% |
Qwen3-30B-A3B-Q6_K | 25.1 | 25.1 | 25.3 | -0.8% |
Qwen3-30B-A3B-Q8_0 | 32.5 | 32.5 | 29.9 | 8.0% |
PerplexityとKL Divergenceスコア
モデル | ŒºPPL | ùúåPPL | ŒºKLD | RMS Œîp |
---|---|---|---|---|
Qwen3-30B-A3B-IQ3_M | 8.855147 ±0.069027 | 98.10% | 0.081621 ±0.000566 | 8.907 ±0.055 |
Qwen3-30B-A3B-IQ3_S | 9.141469 ±0.071687 | 97.40% | 0.115653 ±0.000636 | 10.469 ±0.057 |
Qwen3-30B-A3B-IQ4_NL | 8.674113 ±0.067361 | 98.92% | 0.043268 ±0.000351 | 6.596 ±0.049 |
Qwen3-30B-A3B-Q3_K_L | 8.950671 ±0.069566 | 97.80% | 0.095434 ±0.000689 | 9.560 ±0.056 |
Qwen3-30B-A3B-Q3_K_M | 8.949256 ±0.069263 | 97.57% | 0.104258 ±0.000668 | 9.937 ±0.057 |
Qwen3-30B-A3B-Q3_K_S | 9.058327 ±0.069783 | 97.14% | 0.127036 ±0.000807 | 11.057 ±0.060 |
Qwen3-30B-A3B-Q4_K_M | 8.825116 ±0.069885 | 99.07% | 0.036448 ±0.000348 | 5.866 ±0.045 |
Qwen3-30B-A3B-Q4_K_M-bartowski | (追加予定) | |||
Qwen3-30B-A3B-Q4_K_M-unsloth | (追加予定) | |||
Qwen3-30B-A3B-Q4_K_S | 8.761190 ±0.068775 | 98.99% | 0.040228 ±0.000389 | 6.156 ±0.047 |
Qwen3-30B-A3B-Q5_K_M | 8.617271 ±0.067500 | 99.51% | 0.016456 ±0.000172 | 4.070 ±0.041 |
Qwen3-30B-A3B-Q5_K_S | 8.654473 ±0.067965 | 99.48% | 0.017938 ±0.000223 | 4.231 ±0.044 |
Qwen3-30B-A3B-Q6_K | 8.486339 ±0.065924 | 99.69% | 0.008701 ±0.000170 | 3.018 ±0.044 |
Qwen3-30B-A3B-Q8_0 | 8.485838 ±0.065999 | 99.75% | 0.006176 ±0.000153 | 2.561 ±0.043 |
Qwen3-30B-A3B-F16 | 8.445938 ±0.065177 | 100% | N/A | N/A |
ARC、HellaSwag、MMLU、Truthful QA、WinoGrandeスコア
スコアはllama-perplexityを使用し、テスト毎750タスク、コンテキストサイズ768トークンで生成。
これらのスコア生成に使用されたテストデータは以下のリンクを参照: HellaSwag, ARC, MMLU, Truthful QA, WinoGrande
モデル | ARC | HellaSwag | MMLU | Truthful QA | WinoGrande | 平均スコア |
---|---|---|---|---|---|---|
Qwen3-30B-A3B-IQ3_M | 64.6667 ±1.7466 | 75.07 | 39.0667 ±1.7827 | 33.3333 ±1.7225 | 68.0000 ±1.7045 | 56.03 |
Qwen3-30B-A3B-IQ3_S | 58.8000 ±1.7984 | 73.73 | 38.6667 ±1.7794 | 32.0000 ±1.7045 | 69.8667 ±1.6766 | 54.61 |
Qwen3-30B-A3B-IQ4_NL | 63.7333 ±1.7567 | 76.13 | 40.4000 ±1.7930 | 32.8000 ±1.7155 | 69.8667 ±1.6766 | 56.59 |
Qwen3-30B-A3B-Q3_K_L | 59.4667 ±1.7939 | 74.40 | 38.2667 ±1.7759 | 29.8667 ±1.6723 | 69.7333 ±1.6787 | 54.35 |
Qwen3-30B-A3B-Q3_K_M | 58.8000 ±1.7984 | 74.40 | 38.4000 ±1.7771 | 30.2667 ±1.6787 | 67.4667 ±1.7119 | 53.87 |
Qwen3-30B-A3B-Q3_K_S | 60.0000 ±1.7900 | 75.20 | 39.2000 ±1.7838 | 30.2667 ±1.6787 | 69.4667 ±1.6828 | 54.83 |
Qwen3-30B-A3B-Q4_K_M | 63.8667 ±1.7553 | 75.87 | 40.4000 ±1.7930 | 32.8000 ±1.7155 | 70.8000 ±1.6614 | 56.75 |
Qwen3-30B-A3B-Q4_K_M-bartowski | (追加予定) | |||||
Qwen3-30B-A3B-Q4_K_M-unsloth | (追加予定) | |||||
Qwen3-30B-A3B-Q4_K_S | 64.0000 ±1.7539 | 76.00 | 40.1333 ±1.7910 | 32.2667 ±1.7082 | 68.9333 ±1.6909 | 56.27 |
Qwen3-30B-A3B-Q5_K_M | 64.0000 ±1.7539 | 76.80 | 41.3333 ±1.7993 | 32.4000 ±1.7100 | 69.8667 ±1.6766 | 56.88 |
Qwen3-30B-A3B-Q5_K_S | 63.8667 ±1.7553 | 76.93 | 41.3333 ±1.7993 | 32.0000 ±1.7045 | 70.5333 ±1.6658 | 56.93 |
Qwen3-30B-A3B-Q6_K | 63.7333 ±1.7567 | 76.67 | 40.8000 ±1.7958 | 32.4000 ±1.7100 | 69.7333 ±1.6787 | 56.67 |
Qwen3-30B-A3B-Q8_0 | 63.7333 ±1.7567 | 75.86 | 41.3333 ±1.7993 | 32.2667 ±1.7082 | 71.0667 ±1.6569 | 56.85 |
Qwen3-30B-A3B-F16 | 64.6667 ±1.7466 | 76.80 | 41.6000 ±1.8010 | 32.5333 ±1.7119 | 70.8000 ±1.6614 | 57.28 |
トークン/秒 - ベンチマーク
スコアはllama-benchで生成。比較のために最適化なし(llama-quantize
のみ)のQ4_K_M量子化を含む。
モデル | サイズ | パラメータ | バックエンド | スレッド数 | テスト | t/s |
---|---|---|---|---|---|---|
Qwen3-30B-A3B-Q4_K_M | 15.90 GiB | 30.53 B | Metal,BLAS | 6 | pp512 | 428.41 ± 2.21 |
Qwen3-30B-A3B-Q4_K_M | 15.90 GiB | 30.53 B | Metal,BLAS | 6 | tg128 | 43.81 ± 0.16 |
Qwen3-30B-A3B-Q4_K_M | 15.90 GiB | 30.53 B | Metal,BLAS | 6 | pp1024+tg1024 | 59.98 ± 0.11 |
Qwen3-30B-A3B-Q4_K_M-bartowski | (追加予定) | |||||
Qwen3-30B-A3B-Q4_K_M-bartowski | (追加予定) | |||||
Qwen3-30B-A3B-Q4_K_M-bartowski | (追加予定) | |||||
Qwen3-30B-A3B-Q4_K_M-unsloth | (追加予定) | |||||
Qwen3-30B-A3B-Q4_K_M-unsloth | (追加予定) | |||||
Qwen3-30B-A3B-Q4_K_M-unsloth | (追加予定) |
使用指標
Perplexity: NLP評価で使用される主要指標の1つ。特定の単語列が与えられた時に次のトークンをどれだけ正確に予測できるかを測定。PPLが1の場合は予測と実際が完全一致、1より大きい値は生成トークンが期待値と異なる「驚き」の度合いを示す。
Kullback‚ÄìLeibler (KL) Divergence: 確率分布がどれだけ異なるかを統計的に測定。モデル量子化(または元のテンソルを何らかの方法で変更)時、元のモデルの重みの確率分布をできるだけ保持するほど良く、0に近いほど良い。
AI2 Reasoning Challenge (ARC): パターンマッチングを超えた論理的推論を必要とする複雑な科学問題に回答するAIモデルの能力を評価するベンチマーク。
HellaSwag: Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations(少々長い!)は常識的自然言語推論をテストするベンチマーク。文の最も可能性の高い終わりを予測する必要がある。
MMLU: Massive Multitask Language Understandingは、初等数学、米国史、計算機科学、法律など57科目にわたるLLMの一般知識と問題解決能力を評価。
Truthful QA: LLMが質問に対してどれだけ真実の回答を生成できるかを評価。特に人間の知識が誤解を受けやすい領域で、誤ったまたは誤解を招く情報の生成を回避できるかを識別。
Winogrande: Winograd Schema Challengeに基づき、代名詞参照を含む文の曖昧性を解決する自然言語理解タスク。
クレジット
高品質な量子化モデルの最高の情報源の1つであるColin Kealty氏への大きな感謝!、そしてllama.cppとggml/ggufライブラリの素晴らしい仕事に対してGeorgi Gerganov氏への非常に大きな感謝!



