🚀 gemma-2-2b-it-abliteratedのLlamacpp imatrix量子化
このプロジェクトでは、テキスト生成に特化したgemma-2-2b-it-abliterated
モデルの量子化バージョンを提供しています。量子化にはllama.cpp
を使用し、さまざまな量子化オプションを用意しています。
🚀 クイックスタート
量子化の詳細
- 量子化には llama.cpp のリリース b3496 を使用しています。
- オリジナルモデルは https://huggingface.co/IlyaGusev/gemma-2-2b-it-abliterated です。
- すべての量子化は、こちら のデータセットを使用して
imatrix
オプションで行われています。
- これらの量子化モデルは LM Studio で実行できます。
プロンプトフォーマット
<bos><start_of_turn>user
{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model
このモデルはシステムプロンプトをサポートしていません。
✨ 主な機能
量子化モデルのダウンロード
以下の表から、必要なファイルを選択してダウンロードできます。
埋め込み/出力重み
一部の量子化(Q3_K_XL、Q4_K_Lなど)は、標準的な量子化方法で、埋め込みと出力重みが通常のデフォルト値ではなくQ8_0に量子化されています。
一部の人はこれにより品質が向上すると言い、他の人は違いを感じません。これらのモデルを使用した場合は、あなたの調査結果をコメントしてください。誰も使用していない量子化をアップロードし続けないように、実際に使用されていて有用であるというフィードバックが欲しいです。
📦 インストール
huggingface-cliを使用したダウンロード
まず、huggingface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、特定のファイルをターゲットにすることができます。
huggingface-cli download bartowski/gemma-2-2b-it-abliterated-GGUF --include "gemma-2-2b-it-abliterated-Q4_K_M.gguf" --local-dir ./
モデルが50GBを超える場合は、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。
huggingface-cli download bartowski/gemma-2-2b-it-abliterated-GGUF --include "gemma-2-2b-it-abliterated-Q8_0/*" --local-dir ./
新しいローカルディレクトリ(gemma-2-2b-it-abliterated-Q8_0)を指定するか、すべてをその場所にダウンロード(./)することができます。
📚 ドキュメント
どのファイルを選べばいいですか?
Artefact2による、さまざまなパフォーマンスを示すチャート付きの素晴らしい解説記事が こちら にあります。
まず、実行できるモデルのサイズを把握する必要があります。これには、あなたが持っているRAMと/またはVRAMの量を把握する必要があります。
モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めたいと思うでしょう。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化を選択しましょう。
絶対的な最高品質を求める場合は、システムRAMとGPUのVRAMを合計し、同様にその合計よりも1 - 2GB小さいファイルサイズの量子化を選択します。
次に、「I-量子化」または「K-量子化」を使用するかを決定する必要があります。
あまり考えたくない場合は、K-量子化のいずれかを選択しましょう。これらは「QX_K_X」の形式で、Q5_K_Mのようになります。
もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックすることができます。
llama.cpp feature matrix
基本的に、Q4以下を目指していて、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I-量子化を検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようになります。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI-量子化はCPUとApple Metalでも使用できますが、K-量子化と比べると遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。
I-量子化はVulcan(AMD)と互換性がないため、AMDカードを使用している場合は、rocBLASビルドまたはVulcanビルドを使用しているかを再度確認してください。この記事を書いている時点では、LM StudioにはROCmサポートのプレビュー版があり、他の推論エンジンにはROCm用の特定のビルドがあります。
📄 ライセンス
このプロジェクトのライセンスは gemma
です。
クレジット
- imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。
- 埋め込み/出力の実験のインスピレーションを与えてくれたZeroWwに感謝します。
もし私の仕事をサポートしたい場合は、こちらのko-fiページを訪れてください:https://ko-fi.com/bartowski