🚀 WizardLM-2-7B-abliteratedのLlamacpp imatrix量子化
このプロジェクトは、llama.cpp のリリース b2965 を使用して、WizardLM-2-7B-abliteratedモデルの量子化を行っています。
🚀 クイックスタート
元のモデル
元のモデルはこちらから入手できます: WizardLM-2-7B-abliterated
プロンプトフォーマット
{system_prompt} USER: {prompt} ASSISTANT: </s>
ファイルのダウンロード
以下のテーブルから、必要な量子化ファイルを選択してダウンロードできます。
huggingface-cliを使用したダウンロード
まず、huggingface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードしたい特定のファイルを指定できます。
huggingface-cli download bartowski/WizardLM-2-7B-abliterated-GGUF --include "WizardLM-2-7B-abliterated-Q4_K_M.gguf" --local-dir ./
モデルが50GBを超える場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下のコマンドを実行します。
huggingface-cli download bartowski/WizardLM-2-7B-abliterated-GGUF --include "WizardLM-2-7B-abliterated-Q8_0.gguf/*" --local-dir WizardLM-2-7B-abliterated-Q8_0
新しいローカルディレクトリ(WizardLM-2-7B-abliterated-Q8_0)を指定するか、すべてを現在のディレクトリ(./)にダウンロードできます。
💻 使用例
基本的な使用法
pip install -U "huggingface_hub[cli]"
huggingface-cli download bartowski/WizardLM-2-7B-abliterated-GGUF --include "WizardLM-2-7B-abliterated-Q4_K_M.gguf" --local-dir ./
huggingface-cli download bartowski/WizardLM-2-7B-abliterated-GGUF --include "WizardLM-2-7B-abliterated-Q8_0.gguf/*" --local-dir WizardLM-2-7B-abliterated-Q8_0
📚 詳細ドキュメント
どのファイルを選ぶべきか?
Artefact2による様々なパフォーマンスを示すチャート付きの素晴らしい記事が こちら にあります。
まず、実行できるモデルのサイズを判断する必要があります。これには、利用可能なRAMおよび/またはVRAMの量を把握する必要があります。
モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることを目指します。GPUの総VRAMよりも1-2GB小さいファイルサイズの量子化を選択してください。
最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1-2GB小さいファイルサイズの量子化を選択してください。
次に、'I-quant'または'K-quant'を使用するかを決定する必要があります。
あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは'QX_K_X'の形式で、例えばQ5_K_Mです。
もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックしてください。
llama.cpp feature matrix
基本的に、Q4以下を目指し、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、例えばIQ3_Mです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI-quantはCPUおよびApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。
I-quantはVulcan(AMD)と互換性がありません。したがって、AMDカードを使用している場合は、rocBLASビルドまたはVulcanビルドを使用しているかを確認してください。この記事を書いている時点で、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。
支援について
このプロジェクトを支援したい場合は、こちら のko-fiページを訪問してください。
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で提供されています。