🚀 Qwen2.5-Coder-14B-Instruct-abliteratedのLlamacpp imatrix量子化
このプロジェクトでは、Qwen2.5-Coder-14B-Instruct-abliteratedモデルの量子化を行っています。量子化には、llama.cppのリリースb4058を使用しています。
🚀 クイックスタート
量子化の概要
量子化には、llama.cppのリリースb4058を使用しています。元のモデルはこちらにあります。すべての量子化は、ここのデータセットを使用してimatrixオプションで行われています。これらのモデルはLM Studioで実行できます。
プロンプトフォーマット
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
✨ 主な機能
ダウンロード可能なファイル
以下の表から、必要なファイルを選択してダウンロードできます。
埋め込み/出力重み
一部の量子化(Q3_K_XL、Q4_K_Lなど)は、標準的な量子化方法で、埋め込みと出力重みが通常のデフォルトではなくQ8_0に量子化されています。一部の人はこれにより品質が向上すると言い、他の人は違いを感じません。これらのモデルを使用した場合は、ぜひあなたの発見をコメントしてください。誰も使っていない量子化をアップロードし続けないように、実際に使用されていて役立つというフィードバックが欲しいです。ありがとう!
📦 インストール
huggingface-cliを使用したダウンロード
まず、huggingface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、特定のファイルをターゲットにすることができます。
huggingface-cli download bartowski/Qwen2.5-Coder-14B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-14B-Instruct-abliterated-Q4_K_M.gguf" --local-dir ./
モデルが50GB以上の場合は、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。
huggingface-cli download bartowski/Qwen2.5-Coder-14B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-14B-Instruct-abliterated-Q8_0/*" --local-dir ./
新しいローカルディレクトリ(Qwen2.5-Coder-14B-Instruct-abliterated-Q8_0)を指定するか、すべてをその場所にダウンロードすることができます(./)。
📚 ドキュメント
Q4_0_X_Xについて
これらはMetal(Apple)オフロード用ではなく、ARMチップ用です。ARMチップを使用している場合、Q4_0_X_Xの量子化は大幅な速度向上が見られます。Q4_0_4_4の速度比較は元のプルリクエストを参照してください。あなたのARMチップで最適なものを確認するには、AArch64 SoC機能を確認できます(EloyOn!に感謝!)。
どのファイルを選べばいいですか?
Artefact2による、様々なパフォーマンスを示すチャート付きの素晴らしい解説がこちらにあります。まず、実行できるモデルのサイズを把握する必要があります。これには、あなたが持っているRAMおよび/またはVRAMの量を把握する必要があります。モデルをできるだけ高速に実行したい場合は、全体をGPUのVRAMに収めることが望ましいです。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化を目指してください。絶対的な最高品質を望む場合は、システムRAMとGPUのVRAMを合計し、同様にその合計よりも1 - 2GB小さいファイルサイズの量子化を取得してください。次に、'I-quant'または'K-quant'を使用するかを決定する必要があります。あまり考えたくない場合は、K-quantのいずれかを取得してください。これらは'QX_K_X'の形式で、Q5_K_Mのようになります。もっと詳しく調べたい場合は、この非常に便利な機能チャートをチェックできます。llama.cpp機能マトリックス基本的に、Q4以下を目指しており、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようになります。これらは新しく、サイズに対してより良いパフォーマンスを提供します。これらのI-quantはCPUとApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。I-quantはVulcan(AMD)と互換性がないため、AMDカードを持っている場合は、rocBLASビルド还是Vulcanビルドを使用しているかを再度確認してください。この記事を書いている時点では、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。
📄 ライセンス
このプロジェクトはApache 2.0ライセンスの下で提供されています。
クレジット
imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。埋め込み/出力の実験のインスピレーションを提供してくれたZeroWwに感謝します。私の仕事をサポートしたい場合は、こちらのko-fiページを訪れてください。