base_model: IlyaGusev/gemma-2-9b-it-abliterated
language:
- en
license: gemma
pipeline_tag: text-generation
quantized_by: bartowski
gemma-2-9b-it-abliteratedのLlamacpp imatrix量子化
量子化にはllama.cppのリリースb3878を使用しています。
オリジナルモデル: https://huggingface.co/IlyaGusev/gemma-2-9b-it-abliterated
すべての量子化はimatrixオプションを使用し、こちらのデータセットで実施されました。
LM Studioで実行可能です。
プロンプト形式
<bos><start_of_turn>system
{system_prompt}<end_of_turn>
<start_of_turn>user
{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model
以下のファイルをダウンロード(ブランチ全体ではなく):
埋め込み/出力ウェイト
これらの量子化の一部(Q3_K_XL、Q4_K_Lなど)は、埋め込みと出力ウェイトを通常のデフォルトではなくQ8_0で量子化した標準的な量子化手法です。
これにより品質が向上すると言う人もいれば、違いに気づかない人もいます。これらのモデルを使用する場合は、ぜひコメントで発見を共有してください。誰も使用していない量子化をアップロードし続けないよう、フィードバックが欲しいです。
ありがとうございます!
huggingface-cliを使用したダウンロード
まず、huggingface-cliがインストールされていることを確認してください:
pip install -U "huggingface_hub[cli]"
その後、特定のファイルを指定してダウンロードできます:
huggingface-cli download bartowski/gemma-2-9b-it-abliterated-GGUF --include "gemma-2-9b-it-abliterated-Q4_K_M.gguf" --local-dir ./
モデルが50GBを超える場合、複数のファイルに分割されています。それらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します:
huggingface-cli download bartowski/gemma-2-9b-it-abliterated-GGUF --include "gemma-2-9b-it-abliterated-Q8_0/*" --local-dir ./
新しいlocal-dir(gemma-2-9b-it-abliterated-Q8_0)を指定するか、すべてをその場(./)にダウンロードできます。
Q4_0_X_X
これらはMetal(Apple)オフローディング用ではなく、ARMチップ専用です。
ARMチップを使用している場合、Q4_0_X_X量子化は大幅な高速化をもたらします。オリジナルのプルリクエストでQ4_0_4_4の速度比較を確認してください。
どのARMチップに最適かを確認するには、AArch64 SoC featuresをチェックしてください(EloyOnさんに感謝!)。
どのファイルを選ぶべきか?
Artefact2によるこちらのチャート付きの素晴らしい解説があります。
まず、実行可能なモデルのサイズを把握する必要があります。そのためには、RAMやVRAMの量を確認する必要があります。
モデルを可能な限り高速に実行したい場合は、モデル全体をGPUのVRAMに収める必要があります。GPUの総VRAMより1-2GB小さい量子化を選択してください。
絶対的な最高品質を求めたい場合は、システムRAMとGPUのVRAMを合計し、同様に合計より1-2GB小さい量子化を選択してください。
次に、「I-quant」または「K-quant」を使用するかどうかを決定する必要があります。
あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは「QX_K_X」形式で、例えばQ5_K_Mなどです。
さらに詳しく知りたい場合は、この非常に便利な機能チャートを確認してください:
llama.cpp feature matrix
基本的に、Q4以下を目指していて、cuBLAS(Nvidia)またはrocBLAS(AMD)を実行している場合は、I-quantを検討してください。これらは「IQX_X」形式で、例えばIQ3_Mなどです。これらは新しく、サイズに対してより良い性能を提供します。
これらのI-quantはCPUおよびApple Metalでも使用できますが、K-quant相当よりも遅くなるため、速度と性能のトレードオフを考慮する必要があります。
I-quantはVulcan(これもAMD)とは互換性がありません。AMDカードを使用している場合は、rocBLASビルドまたはVulcanビルドを使用しているかどうかを確認してください。この記事の執筆時点では、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。
クレジット
imatrixキャリブレーションデータセット作成の支援をしてくれたkalomazeとDampfに感謝します。
埋め込み/出力の実験のインスピレーションを与えてくれたZeroWwに感謝します。
私の仕事をサポートしたいですか?こちらを訪れてください: https://ko-fi.com/bartowski