Qwen2.5-Coder-14B-Instruct-abliterated-GGUFオープンソースコーディングモデル：複数の量子化タイプで異なるハードウェアに適合

ホーム

Qwen2.5 Coder 14B Instruct Abliterated GGUF

bartowskiによって開発

Qwen2.5-Coder-14B-Instruct-abliteratedの量子化バージョンで、複数の量子化タイプをサポートし、さまざまなハードウェア条件に適しています。

大規模言語モデルオープンソースライセンス:Apache-2.0 #コード生成の最適化 #多量化適合 #低リソースデプロイ

ダウンロード数 1,240

リリース時間 : 11/13/2024

モデル概要

これはQwen2.5-Coder-14B-Instruct-abliteratedモデルに基づく量子化バージョンで、さまざまな量子化方法を通じて、異なるハードウェア上でのモデルの実行効率とパフォーマンスを最適化することを目的としています。

モデル特徴

複数の量子化オプション

f16からQ4_K_Mまでの複数の量子化タイプを提供し、さまざまなハードウェア要件を満たします。

埋め込み/出力重みの最適化

一部の量子化モデルはQ8_0量子化埋め込みと出力重みを採用し、モデルの品質を向上させる可能性があります。

ARMチップの最適化

Q4_0_X_X量子化タイプはARMチップ用に最適化されており、実行速度を大幅に向上させます。

モデル能力

コード生成

コード理解

テキスト生成

使用事例

ソフトウェア開発

コード補完

開発環境でコード補完の提案を提供します。

開発効率を向上させる

コード解釈

複雑なコード断片の機能とロジックを説明します。

既存のコードの理解を助ける

🚀 Qwen2.5-Coder-14B-Instruct-abliteratedのLlamacpp imatrix量子化

このプロジェクトでは、Qwen2.5-Coder-14B-Instruct-abliteratedモデルの量子化を行っています。量子化には、llama.cppのリリースb4058を使用しています。

🚀 クイックスタート

量子化の概要

量子化には、llama.cppのリリースb4058を使用しています。元のモデルはこちらにあります。すべての量子化は、ここのデータセットを使用してimatrixオプションで行われています。これらのモデルはLM Studioで実行できます。

プロンプトフォーマット

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

✨ 主な機能

ダウンロード可能なファイル

以下の表から、必要なファイルを選択してダウンロードできます。

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Qwen2.5-Coder-14B-Instruct-abliterated-f16.gguf	f16	29.55GB	false	完全なF16重み。
Qwen2.5-Coder-14B-Instruct-abliterated-Q8_0.gguf	Q8_0	15.70GB	false	非常に高品質で、一般的には必要ありませんが、利用可能な最大の量子化。
Qwen2.5-Coder-14B-Instruct-abliterated-Q6_K_L.gguf	Q6_K_L	12.50GB	false	埋め込みと出力重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、おすすめ。
Qwen2.5-Coder-14B-Instruct-abliterated-Q6_K.gguf	Q6_K	12.12GB	false	非常に高品質で、ほぼ完璧で、おすすめ。
Qwen2.5-Coder-14B-Instruct-abliterated-Q5_K_L.gguf	Q5_K_L	10.99GB	false	埋め込みと出力重みにQ8_0を使用。高品質で、おすすめ。
Qwen2.5-Coder-14B-Instruct-abliterated-Q5_K_M.gguf	Q5_K_M	10.51GB	false	高品質で、おすすめ。
Qwen2.5-Coder-14B-Instruct-abliterated-Q5_K_S.gguf	Q5_K_S	10.27GB	false	高品質で、おすすめ。
Qwen2.5-Coder-14B-Instruct-abliterated-Q4_K_L.gguf	Q4_K_L	9.57GB	false	埋め込みと出力重みにQ8_0を使用。良い品質で、おすすめ。
Qwen2.5-Coder-14B-Instruct-abliterated-Q4_K_M.gguf	Q4_K_M	8.99GB	false	良い品質で、ほとんどの使用ケースでのデフォルトサイズ、おすすめ。
Qwen2.5-Coder-14B-Instruct-abliterated-Q3_K_XL.gguf	Q3_K_XL	8.61GB	false	埋め込みと出力重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。
Qwen2.5-Coder-14B-Instruct-abliterated-Q4_K_S.gguf	Q4_K_S	8.57GB	false	品質がやや低いが、より多くのスペースを節約できます、おすすめ。
Qwen2.5-Coder-14B-Instruct-abliterated-Q4_0.gguf	Q4_0	8.54GB	false	レガシーフォーマットで、同じサイズの他のフォーマットよりも一般的には使用価値が低いです。
Qwen2.5-Coder-14B-Instruct-abliterated-Q4_0_8_8.gguf	Q4_0_8_8	8.52GB	false	ARM推論用に最適化されています。'sve'サポートが必要です（下記のリンクを参照）。MacやWindowsでは使用しないでください。
Qwen2.5-Coder-14B-Instruct-abliterated-Q4_0_4_8.gguf	Q4_0_4_8	8.52GB	false	ARM推論用に最適化されています。'i8mm'サポートが必要です（下記のリンクを参照）。MacやWindowsでは使用しないでください。
Qwen2.5-Coder-14B-Instruct-abliterated-Q4_0_4_4.gguf	Q4_0_4_4	8.52GB	false	ARM推論用に最適化されています。すべてのARMチップでうまく動作するはずです。不確かな場合はこれを選択してください。MacやWindowsでは使用しないでください。
Qwen2.5-Coder-14B-Instruct-abliterated-IQ4_XS.gguf	IQ4_XS	8.12GB	false	まともな品質で、Q4_K_Sよりも小さく、同様のパフォーマンスを持ち、おすすめ。
Qwen2.5-Coder-14B-Instruct-abliterated-Q3_K_L.gguf	Q3_K_L	7.92GB	false	品質は低いが使用可能で、低RAM環境に適しています。
Qwen2.5-Coder-14B-Instruct-abliterated-Q3_K_M.gguf	Q3_K_M	7.34GB	false	低品質。
Qwen2.5-Coder-14B-Instruct-abliterated-IQ3_M.gguf	IQ3_M	6.92GB	false	中程度の低品質で、Q3_K_Mに匹敵するディーセントなパフォーマンスを持つ新しい方法。
Qwen2.5-Coder-14B-Instruct-abliterated-Q3_K_S.gguf	Q3_K_S	6.66GB	false	低品質で、推奨されません。
Qwen2.5-Coder-14B-Instruct-abliterated-Q2_K_L.gguf	Q2_K_L	6.53GB	false	埋め込みと出力重みにQ8_0を使用。非常に低品質ですが、意外と使用可能です。
Qwen2.5-Coder-14B-Instruct-abliterated-IQ3_XS.gguf	IQ3_XS	6.38GB	false	低品質で、ディーセントなパフォーマンスを持つ新しい方法で、Q3_K_Sよりも少し良いです。
Qwen2.5-Coder-14B-Instruct-abliterated-Q2_K.gguf	Q2_K	5.77GB	false	非常に低品質ですが、意外と使用可能です。
Qwen2.5-Coder-14B-Instruct-abliterated-IQ2_M.gguf	IQ2_M	5.36GB	false	比較的低品質ですが、SOTA技術を使用して意外と使用可能です。
Qwen2.5-Coder-14B-Instruct-abliterated-IQ2_S.gguf	IQ2_S	5.00GB	false	低品質ですが、SOTA技術を使用して使用可能です。
Qwen2.5-Coder-14B-Instruct-abliterated-IQ2_XS.gguf	IQ2_XS	4.70GB	false	低品質ですが、SOTA技術を使用して使用可能です。

埋め込み/出力重み

一部の量子化（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法で、埋め込みと出力重みが通常のデフォルトではなくQ8_0に量子化されています。一部の人はこれにより品質が向上すると言い、他の人は違いを感じません。これらのモデルを使用した場合は、ぜひあなたの発見をコメントしてください。誰も使っていない量子化をアップロードし続けないように、実際に使用されていて役立つというフィードバックが欲しいです。ありがとう！

📦 インストール

huggingface-cliを使用したダウンロード

まず、huggingface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、特定のファイルをターゲットにすることができます。

huggingface-cli download bartowski/Qwen2.5-Coder-14B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-14B-Instruct-abliterated-Q4_K_M.gguf" --local-dir ./

モデルが50GB以上の場合は、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。

huggingface-cli download bartowski/Qwen2.5-Coder-14B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-14B-Instruct-abliterated-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（Qwen2.5-Coder-14B-Instruct-abliterated-Q8_0）を指定するか、すべてをその場所にダウンロードすることができます（./）。

📚 ドキュメント

Q4_0_X_Xについて

これらはMetal（Apple）オフロード用ではなく、ARMチップ用です。ARMチップを使用している場合、Q4_0_X_Xの量子化は大幅な速度向上が見られます。Q4_0_4_4の速度比較は元のプルリクエストを参照してください。あなたのARMチップで最適なものを確認するには、AArch64 SoC機能を確認できます（EloyOn！に感謝！）。

どのファイルを選べばいいですか？

Artefact2による、様々なパフォーマンスを示すチャート付きの素晴らしい解説がこちらにあります。まず、実行できるモデルのサイズを把握する必要があります。これには、あなたが持っているRAMおよび/またはVRAMの量を把握する必要があります。モデルをできるだけ高速に実行したい場合は、全体をGPUのVRAMに収めることが望ましいです。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化を目指してください。絶対的な最高品質を望む場合は、システムRAMとGPUのVRAMを合計し、同様にその合計よりも1 - 2GB小さいファイルサイズの量子化を取得してください。次に、'I-quant'または'K-quant'を使用するかを決定する必要があります。あまり考えたくない場合は、K-quantのいずれかを取得してください。これらは'QX_K_X'の形式で、Q5_K_Mのようになります。もっと詳しく調べたい場合は、この非常に便利な機能チャートをチェックできます。llama.cpp機能マトリックス基本的に、Q4以下を目指しており、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようになります。これらは新しく、サイズに対してより良いパフォーマンスを提供します。これらのI-quantはCPUとApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。I-quantはVulcan（AMD）と互換性がないため、AMDカードを持っている場合は、rocBLASビルド还是Vulcanビルドを使用しているかを再度確認してください。この記事を書いている時点では、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。