モデル概要
モデル特徴
モデル能力
使用事例
🚀 huihui-aiによるQwen3-14B-abliteratedのLlamacpp imatrix量子化
このプロジェクトは、llama.cpp のリリース b5284 を使用して、huihui-aiのQwen3-14B-abliteratedモデルを量子化したものです。量子化により、モデルのサイズを削減し、実行効率を向上させることができます。
🔍 基本情報
属性 | 详情 |
---|---|
量子化担当者 | bartowski |
パイプラインタグ | テキスト生成 |
ベースモデル | huihui-ai/Qwen3-14B-abliterated |
ライセンス | apache-2.0 |
タグ | chat、abliterated、uncensored |
ライセンスリンク | https://huggingface.co/Qwen/Qwen3-14B/blob/main/LICENSE |
ベースモデルとの関係 | 量子化 |
⚠️ 重要提示
- 「敏感または物議を醸す出力のリスク」: このモデルのセーフティフィルタリングは大幅に削減されており、敏感、物議を醸す、または不適切な内容を生成する可能性があります。ユーザーは注意を払い、生成された出力を厳密にレビューする必要があります。
- 「すべてのユーザーに適していない」: 内容のフィルタリングが限られているため、このモデルの出力は、公共の場、未成年ユーザー、または高いセキュリティが必要なアプリケーションには不適切な場合があります。
- 「法的および倫理的責任」: ユーザーは、自分の使用が地域の法律および倫理基準に準拠していることを確認する必要があります。生成された内容には法的または倫理的なリスクが伴う可能性があり、ユーザーはすべての結果に対して単独で責任を負います。
- 「研究および実験的使用」: このモデルは、研究、テスト、または制御された環境での使用を推奨します。本番環境または公開向けの商用アプリケーションでの直接使用は避けてください。
- 「モニタリングおよびレビューの推奨事項」: ユーザーは、モデルの出力をリアルタイムで監視し、必要に応じて手動でレビューすることを強くお勧めします。これにより、不適切な内容の拡散を防ぐことができます。
- 「デフォルトのセーフティ保証がない」: 標準モデルとは異なり、このモデルは厳密なセーフティ最適化を受けていません。huihui.aiは、その使用に起因するいかなる結果に対しても責任を負いません。
🚀 クイックスタート
- 元モデル: https://huggingface.co/huihui-ai/Qwen3-14B-abliterated
- 量子化方法: llama.cppのimatrixオプションを使用し、ここ のデータセットを用いて量子化を行いました。
- 実行方法: LM Studio で実行することもできますし、llama.cpp または他のllama.cppベースのプロジェクトで直接実行することも可能です。
💻 使用例
プロンプトフォーマット
チャットテンプレートが指定されていないため、デフォルトのものが使用されます。これは正しくない場合があるので、元のモデルカードを確認してください。
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
📦 インストール
huggingface-cliを使用したダウンロード
まず、hugginface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードしたい特定のファイルを指定することができます。
huggingface-cli download bartowski/huihui-ai_Qwen3-14B-abliterated-GGUF --include "huihui-ai_Qwen3-14B-abliterated-Q4_K_M.gguf" --local-dir ./
モデルが50GBを超える場合、複数のファイルに分割されています。すべてのファイルをローカルフォルダにダウンロードするには、次のコマンドを実行します。
huggingface-cli download bartowski/huihui-ai_Qwen3-14B-abliterated-GGUF --include "huihui-ai_Qwen3-14B-abliterated-Q8_0/*" --local-dir ./
新しいローカルディレクトリを指定するか、すべてのファイルを現在のディレクトリにダウンロードすることができます。
📚 ドキュメント
ダウンロードファイル一覧
ファイル名 | 量子化タイプ | ファイルサイズ | 分割 | 説明 |
---|---|---|---|---|
Qwen3-14B-abliterated-bf16.gguf | bf16 | 29.54GB | false | 完全なBF16重み。 |
Qwen3-14B-abliterated-Q8_0.gguf | Q8_0 | 15.70GB | false | 非常に高い品質。一般的には必要ないが、利用可能な最大の量子化。 |
Qwen3-14B-abliterated-Q6_K_L.gguf | Q6_K_L | 12.50GB | false | 埋め込みと出力重みにQ8_0を使用。非常に高い品質で、ほぼ完璧。推奨。 |
Qwen3-14B-abliterated-Q6_K.gguf | Q6_K | 12.12GB | false | 非常に高い品質で、ほぼ完璧。推奨。 |
Qwen3-14B-abliterated-Q5_K_L.gguf | Q5_K_L | 10.99GB | false | 埋め込みと出力重みにQ8_0を使用。高品質。推奨。 |
Qwen3-14B-abliterated-Q5_K_M.gguf | Q5_K_M | 10.51GB | false | 高品質。推奨。 |
Qwen3-14B-abliterated-Q5_K_S.gguf | Q5_K_S | 10.26GB | false | 高品質。推奨。 |
Qwen3-14B-abliterated-Q4_K_L.gguf | Q4_K_L | 9.58GB | false | 埋め込みと出力重みにQ8_0を使用。良好な品質。推奨。 |
Qwen3-14B-abliterated-Q4_1.gguf | Q4_1 | 9.39GB | false | レガシーフォーマット。Q4_K_Sと同様のパフォーマンスが得られるが、Apple siliconでのトークン/ワットが改善されています。 |
Qwen3-14B-abliterated-Q4_K_M.gguf | Q4_K_M | 9.00GB | false | 良好な品質。ほとんどのユースケースでのデフォルトサイズ。推奨。 |
Qwen3-14B-abliterated-Q3_K_XL.gguf | Q3_K_XL | 8.58GB | false | 埋め込みと出力重みにQ8_0を使用。品質は低いが使用可能。低RAM環境に適しています。 |
Qwen3-14B-abliterated-Q4_K_S.gguf | Q4_K_S | 8.57GB | false | 品質がやや低いが、より多くのスペースを節約できます。推奨。 |
Qwen3-14B-abliterated-Q4_0.gguf | Q4_0 | 8.54GB | false | レガシーフォーマット。ARMおよびAVX CPU推論のためのオンライン再パッキングを提供します。 |
Qwen3-14B-abliterated-IQ4_NL.gguf | IQ4_NL | 8.54GB | false | IQ4_XSに似ていますが、少し大きいです。ARM CPU推論のためのオンライン再パッキングを提供します。 |
Qwen3-14B-abliterated-IQ4_XS.gguf | IQ4_XS | 8.11GB | false | 適度な品質。Q4_K_Sよりも小さく、同様のパフォーマンスが得られます。推奨。 |
Qwen3-14B-abliterated-Q3_K_L.gguf | Q3_K_L | 7.90GB | false | 品質は低いが使用可能。低RAM環境に適しています。 |
Qwen3-14B-abliterated-Q3_K_M.gguf | Q3_K_M | 7.32GB | false | 低品質。 |
Qwen3-14B-abliterated-IQ3_M.gguf | IQ3_M | 6.88GB | false | 中程度の低品質。Q3_K_Mと同等のパフォーマンスを持つ新しい方法。 |
Qwen3-14B-abliterated-Q3_K_S.gguf | Q3_K_S | 6.66GB | false | 低品質。推奨しません。 |
Qwen3-14B-abliterated-Q2_K_L.gguf | Q2_K_L | 6.51GB | false | 埋め込みと出力重みにQ8_0を使用。非常に低い品質ですが、意外と使用可能です。 |
Qwen3-14B-abliterated-IQ3_XS.gguf | IQ3_XS | 6.38GB | false | 低品質。パフォーマンスが適度な新しい方法。Q3_K_Sよりも少し良いです。 |
Qwen3-14B-abliterated-IQ3_XXS.gguf | IQ3_XXS | 5.94GB | false | 低品質。Q3量子化と同等のパフォーマンスを持つ新しい方法。 |
Qwen3-14B-abliterated-Q2_K.gguf | Q2_K | 5.75GB | false | 非常に低い品質ですが、意外と使用可能です。 |
Qwen3-14B-abliterated-IQ2_M.gguf | IQ2_M | 5.32GB | false | 比較的低い品質。最先端の技術を使用して、意外と使用可能です。 |
Qwen3-14B-abliterated-IQ2_S.gguf | IQ2_S | 4.96GB | false | 低品質。最先端の技術を使用して、使用可能です。 |
Qwen3-14B-abliterated-IQ2_XS.gguf | IQ2_XS | 4.69GB | false | 低品質。最先端の技術を使用して、使用可能です。 |
埋め込み/出力重み
一部の量子化(Q3_K_XL、Q4_K_Lなど)は、標準的な量子化方法で、埋め込みと出力重みが通常のデフォルトではなくQ8_0に量子化されています。
ARM/AVX情報
以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みをメモリ内でインターリーブすることで、ARMおよびAVXマシンでのパフォーマンスを向上させていました。しかし、現在は「オンライン再パッキング」と呼ばれる重みの処理方法があります。詳細は このPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的に実行されます。
llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできなくなり、代わりにQ4_0を使用する必要があります。
また、このPR により、IQ4_NLを使用すると、ARM用に重みを再パッキングすることができます(現時点では4_4のみ)。ロード時間は遅くなる可能性がありますが、全体的な速度が向上します。
🔧 技術詳細
どのファイルを選ぶべきか?
Artefact2による ここ に、様々なパフォーマンスを示すチャート付きの素晴らしい解説があります。
まず、実行できるモデルのサイズを決定する必要があります。これには、持っているRAMおよび/またはVRAMの量を把握する必要があります。
モデルをできるだけ高速に実行したい場合は、全体をGPUのVRAMに収めることを目指してください。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化を選びましょう。
絶対的な最高品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化を選びます。
次に、「I-量子化」または「K-量子化」を使用するかを決定する必要があります。
あまり考えたくない場合は、K-量子化のいずれかを選びましょう。これらは 'QX_K_X' の形式で、例えばQ5_K_Mです。
もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックしてください。 llama.cpp feature matrix
基本的に、Q4以下を目指し、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I-量子化を検討する必要があります。これらはIQX_Xの形式で、例えばIQ3_Mです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI-量子化はCPUでも使用できますが、同等のK-量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。
📄 ライセンス
このプロジェクトは、apache-2.0ライセンスの下で提供されています。詳細については、ライセンスリンク を参照してください。
🙏 クレジット
- kalomazeとDampfには、imatrixキャリブレーションデータセットの作成に協力してくれたことに感謝します。
- ZeroWwには、埋め込み/出力の実験のインスピレーションを提供してくれたことに感謝します。
- LM Studioには、私の仕事を支援してくれたことに感謝します。
私の仕事を支援したい場合は、こちらのko-fiページ をご覧ください。



