base_model: byroneverson/glm-4-9b-chat-abliterated
language:
- zh
- en
library_name: transformers
license: other
license_name: glm-4
license_link: https://huggingface.co/THUDM/glm-4-9b-chat/blob/main/LICENSE
pipeline_tag: text-generation
tags:
- glm
- chatglm
- thudm
- chat
- abliterated
quantized_by: bartowski
glm-4-9b-chat-abliteratedのLlamacpp imatrix量子化
llama.cppのリリースb3634を使用して量子化を行いました。
オリジナルモデル: https://huggingface.co/byroneverson/glm-4-9b-chat-abliterated
すべての量子化は、こちらのデータセットを使用してimatrixオプションで作成されました。
LM Studioで実行してください。
プロンプト形式
[gMASK] <sop> <|system|>
{system_prompt} <|user|>
{prompt} <|assistant|>
以下のファイルをダウンロードしてください(ブランチ全体ではありません):
埋め込み/出力ウェイト
これらの量子化の一部(Q3_K_XL、Q4_K_Lなど)は、埋め込みと出力ウェイトを通常のデフォルトではなくQ8_0で量子化した標準的な量子化方法です。
これにより品質が向上すると言う人もいれば、違いに気づかない人もいます。これらのモデルを使用する場合は、ぜひコメントを残してください。これらの量子化が実際に使用され有用であるかどうか、フィードバックが欲しいです。
ありがとうございます!
クレジット
imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。
埋め込み/出力の実験にインスピレーションを与えてくれたZeroWwに感謝します。
huggingface-cliを使用したダウンロード
まず、huggingface-cliがインストールされていることを確認してください:
pip install -U "huggingface_hub[cli]"
その後、特定のファイルを指定してダウンロードできます:
huggingface-cli download bartowski/glm-4-9b-chat-abliterated-GGUF --include "glm-4-9b-chat-abliterated-Q4_K_M.gguf" --local-dir ./
モデルが50GBを超える場合、複数のファイルに分割されています。すべてをローカルフォルダにダウンロードするには、次のコマンドを実行します:
huggingface-cli download bartowski/glm-4-9b-chat-abliterated-GGUF --include "glm-4-9b-chat-abliterated-Q8_0/*" --local-dir ./
新しいlocal-dir(glm-4-9b-chat-abliterated-Q8_0)を指定するか、すべてをその場(./)にダウンロードできます。
どのファイルを選ぶべきか?
Artefact2によるさまざまな性能を示すチャート付きの優れた説明がこちらにあります。
まず、実行可能なモデルのサイズを把握する必要があります。そのためには、RAMやVRAMの量を確認する必要があります。
モデルを可能な限り高速に実行したい場合は、モデル全体をGPUのVRAMに収める必要があります。GPUの総VRAMよりも1-2GB小さい量子化を選んでください。
最高品質を求める場合は、システムRAMとGPUのVRAMを合計し、同様に合計よりも1-2GB小さい量子化を選んでください。
次に、「I-quant」または「K-quant」を使用するかどうかを決める必要があります。
あまり考えたくない場合は、K-quantのいずれかを選んでください。これらは「QX_K_X」形式(例:Q5_K_M)です。
さらに詳しく知りたい場合は、この非常に便利な機能チャートを確認してください:
llama.cpp feature matrix
基本的に、Q4以下を目指していて、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I-quantを検討してください。これらは「IQX_X」形式(例:IQ3_M)で、新しいものでサイズに対してより優れた性能を提供します。
これらのI-quantはCPUやApple Metalでも使用できますが、K-quantの同等品よりも遅くなるため、速度と性能のトレードオフを考慮する必要があります。
I-quantはVulcan(AMD)とは互換性がありません。AMDカードを使用している場合は、rocBLASビルドかVulcanビルドかを確認してください。この記事の執筆時点では、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。
私の仕事を支援したいですか?私のko-fiページを訪れてください: https://ko-fi.com/bartowski