huihui-ai_Qwen3-14B-abliterated-GGUFオープンソースモデル - 複数の量子化方式で様々な性能要件に対応

ホーム

Huihui Ai Qwen3 14B Abliterated GGUF

bartowskiによって開発

Qwen3-14B-abliteratedはQwen3-14Bモデルに基づく量子化バージョンで、llama.cppを使用して最適化され、さまざまな性能要件に対応するための複数の量子化オプションを提供します。

大規模言語モデルオープンソースライセンス:Apache-2.0 #高精度量子化 #低メモリ最適化 #多シナリオ推薦

ダウンロード数 6,097

リリース時間 : 5/6/2025

モデル概要

このモデルは量子化処理された大規模言語モデルで、複数の量子化タイプをサポートし、さまざまなハードウェア環境での効率的な推論に適しています。

モデル特徴

複数の量子化タイプ

Q8_0からIQ2_XSまでの複数の量子化オプションを提供し、さまざまな性能と品質要件を満たします。

性能最適化

一部の量子化モデルはARMとAVXマシンに対して最適化されており、推論性能が向上しています。

柔軟なダウンロード方法

huggingface-cliを使用して特定のファイルまたはモデル全体をダウンロードすることをサポートします。

モデル能力

テキスト生成

効率的な推論

使用事例

研究

モデル性能テスト

特定のハードウェアでのさまざまな量子化タイプの性能をテストするために使用します。

開発

ローカルデプロイ

ローカル環境で量子化モデルをデプロイしてテキスト生成タスクを実行します。

🚀 huihui-aiによるQwen3-14B-abliteratedのLlamacpp imatrix量子化

このプロジェクトは、llama.cpp のリリース b5284 を使用して、huihui-aiのQwen3-14B-abliteratedモデルを量子化したものです。量子化により、モデルのサイズを削減し、実行効率を向上させることができます。

🔍 基本情報

属性	详情
量子化担当者	bartowski
パイプラインタグ	テキスト生成
ベースモデル	huihui-ai/Qwen3-14B-abliterated
ライセンス	apache-2.0
タグ	chat、abliterated、uncensored
ライセンスリンク	https://huggingface.co/Qwen/Qwen3-14B/blob/main/LICENSE
ベースモデルとの関係	量子化

⚠️ 重要提示

「敏感または物議を醸す出力のリスク」: このモデルのセーフティフィルタリングは大幅に削減されており、敏感、物議を醸す、または不適切な内容を生成する可能性があります。ユーザーは注意を払い、生成された出力を厳密にレビューする必要があります。
「すべてのユーザーに適していない」: 内容のフィルタリングが限られているため、このモデルの出力は、公共の場、未成年ユーザー、または高いセキュリティが必要なアプリケーションには不適切な場合があります。
「法的および倫理的責任」: ユーザーは、自分の使用が地域の法律および倫理基準に準拠していることを確認する必要があります。生成された内容には法的または倫理的なリスクが伴う可能性があり、ユーザーはすべての結果に対して単独で責任を負います。
「研究および実験的使用」: このモデルは、研究、テスト、または制御された環境での使用を推奨します。本番環境または公開向けの商用アプリケーションでの直接使用は避けてください。
「モニタリングおよびレビューの推奨事項」: ユーザーは、モデルの出力をリアルタイムで監視し、必要に応じて手動でレビューすることを強くお勧めします。これにより、不適切な内容の拡散を防ぐことができます。
「デフォルトのセーフティ保証がない」: 標準モデルとは異なり、このモデルは厳密なセーフティ最適化を受けていません。huihui.aiは、その使用に起因するいかなる結果に対しても責任を負いません。

🚀 クイックスタート

元モデル: https://huggingface.co/huihui-ai/Qwen3-14B-abliterated
量子化方法: llama.cppのimatrixオプションを使用し、ここのデータセットを用いて量子化を行いました。
実行方法: LM Studio で実行することもできますし、llama.cpp または他のllama.cppベースのプロジェクトで直接実行することも可能です。

💻 使用例

プロンプトフォーマット

チャットテンプレートが指定されていないため、デフォルトのものが使用されます。これは正しくない場合があるので、元のモデルカードを確認してください。

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📦 インストール

huggingface-cliを使用したダウンロード

まず、hugginface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードしたい特定のファイルを指定することができます。

huggingface-cli download bartowski/huihui-ai_Qwen3-14B-abliterated-GGUF --include "huihui-ai_Qwen3-14B-abliterated-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されています。すべてのファイルをローカルフォルダにダウンロードするには、次のコマンドを実行します。

huggingface-cli download bartowski/huihui-ai_Qwen3-14B-abliterated-GGUF --include "huihui-ai_Qwen3-14B-abliterated-Q8_0/*" --local-dir ./

新しいローカルディレクトリを指定するか、すべてのファイルを現在のディレクトリにダウンロードすることができます。

📚 ドキュメント

ダウンロードファイル一覧

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Qwen3-14B-abliterated-bf16.gguf	bf16	29.54GB	false	完全なBF16重み。
Qwen3-14B-abliterated-Q8_0.gguf	Q8_0	15.70GB	false	非常に高い品質。一般的には必要ないが、利用可能な最大の量子化。
Qwen3-14B-abliterated-Q6_K_L.gguf	Q6_K_L	12.50GB	false	埋め込みと出力重みにQ8_0を使用。非常に高い品質で、ほぼ完璧。推奨。
Qwen3-14B-abliterated-Q6_K.gguf	Q6_K	12.12GB	false	非常に高い品質で、ほぼ完璧。推奨。
Qwen3-14B-abliterated-Q5_K_L.gguf	Q5_K_L	10.99GB	false	埋め込みと出力重みにQ8_0を使用。高品質。推奨。
Qwen3-14B-abliterated-Q5_K_M.gguf	Q5_K_M	10.51GB	false	高品質。推奨。
Qwen3-14B-abliterated-Q5_K_S.gguf	Q5_K_S	10.26GB	false	高品質。推奨。
Qwen3-14B-abliterated-Q4_K_L.gguf	Q4_K_L	9.58GB	false	埋め込みと出力重みにQ8_0を使用。良好な品質。推奨。
Qwen3-14B-abliterated-Q4_1.gguf	Q4_1	9.39GB	false	レガシーフォーマット。Q4_K_Sと同様のパフォーマンスが得られるが、Apple siliconでのトークン/ワットが改善されています。
Qwen3-14B-abliterated-Q4_K_M.gguf	Q4_K_M	9.00GB	false	良好な品質。ほとんどのユースケースでのデフォルトサイズ。推奨。
Qwen3-14B-abliterated-Q3_K_XL.gguf	Q3_K_XL	8.58GB	false	埋め込みと出力重みにQ8_0を使用。品質は低いが使用可能。低RAM環境に適しています。
Qwen3-14B-abliterated-Q4_K_S.gguf	Q4_K_S	8.57GB	false	品質がやや低いが、より多くのスペースを節約できます。推奨。
Qwen3-14B-abliterated-Q4_0.gguf	Q4_0	8.54GB	false	レガシーフォーマット。ARMおよびAVX CPU推論のためのオンライン再パッキングを提供します。
Qwen3-14B-abliterated-IQ4_NL.gguf	IQ4_NL	8.54GB	false	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論のためのオンライン再パッキングを提供します。
Qwen3-14B-abliterated-IQ4_XS.gguf	IQ4_XS	8.11GB	false	適度な品質。Q4_K_Sよりも小さく、同様のパフォーマンスが得られます。推奨。
Qwen3-14B-abliterated-Q3_K_L.gguf	Q3_K_L	7.90GB	false	品質は低いが使用可能。低RAM環境に適しています。
Qwen3-14B-abliterated-Q3_K_M.gguf	Q3_K_M	7.32GB	false	低品質。
Qwen3-14B-abliterated-IQ3_M.gguf	IQ3_M	6.88GB	false	中程度の低品質。Q3_K_Mと同等のパフォーマンスを持つ新しい方法。
Qwen3-14B-abliterated-Q3_K_S.gguf	Q3_K_S	6.66GB	false	低品質。推奨しません。
Qwen3-14B-abliterated-Q2_K_L.gguf	Q2_K_L	6.51GB	false	埋め込みと出力重みにQ8_0を使用。非常に低い品質ですが、意外と使用可能です。
Qwen3-14B-abliterated-IQ3_XS.gguf	IQ3_XS	6.38GB	false	低品質。パフォーマンスが適度な新しい方法。Q3_K_Sよりも少し良いです。
Qwen3-14B-abliterated-IQ3_XXS.gguf	IQ3_XXS	5.94GB	false	低品質。Q3量子化と同等のパフォーマンスを持つ新しい方法。
Qwen3-14B-abliterated-Q2_K.gguf	Q2_K	5.75GB	false	非常に低い品質ですが、意外と使用可能です。
Qwen3-14B-abliterated-IQ2_M.gguf	IQ2_M	5.32GB	false	比較的低い品質。最先端の技術を使用して、意外と使用可能です。
Qwen3-14B-abliterated-IQ2_S.gguf	IQ2_S	4.96GB	false	低品質。最先端の技術を使用して、使用可能です。
Qwen3-14B-abliterated-IQ2_XS.gguf	IQ2_XS	4.69GB	false	低品質。最先端の技術を使用して、使用可能です。

埋め込み/出力重み

一部の量子化（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法で、埋め込みと出力重みが通常のデフォルトではなくQ8_0に量子化されています。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みをメモリ内でインターリーブすることで、ARMおよびAVXマシンでのパフォーマンスを向上させていました。しかし、現在は「オンライン再パッキング」と呼ばれる重みの処理方法があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的に実行されます。

llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできなくなり、代わりにQ4_0を使用する必要があります。

また、このPR により、IQ4_NLを使用すると、ARM用に重みを再パッキングすることができます（現時点では4_4のみ）。ロード時間は遅くなる可能性がありますが、全体的な速度が向上します。