🚀 Phi-3.5-mini-instruct_UncensoredのLlamacpp imatrix量子化
このプロジェクトは、Phi-3.5-mini-instruct_Uncensoredモデルをllama.cpp
を用いて量子化したものです。量子化により、モデルのサイズを削減し、メモリ使用量を抑えることができます。
🚀 クイックスタート
量子化に使用したバージョン
llama.cpp の b3600 リリースを使用して量子化を行っています。
オリジナルモデル
オリジナルのモデルは こちら です。
量子化データセット
すべての量子化は、ここ のデータセットを使用して imatrix
オプションで行われています。
実行環境
これらの量子化モデルは LM Studio で実行できます。
✨ 主な機能
プロンプトフォーマット
<s><|system|> {system_prompt}<|end|><|user|> {prompt}<|end|><|assistant|><|end|>
ダウンロード
以下の表から、必要なファイルを選択してダウンロードできます。
埋め込み/出力重み
一部の量子化(Q3_K_XL、Q4_K_Lなど)は、標準的な量子化方法で、埋め込みと出力重みを通常のデフォルト値ではなくQ8_0に量子化しています。一部の人はこれにより品質が向上すると言い、他の人は違いを感じないと言っています。これらのモデルを使用した場合は、あなたの発見をコメントしてください。誰も使用していない量子化をアップロードし続けないように、実際に使用されていて有用であるというフィードバックが欲しいです。ありがとう!
クレジット
imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。
埋め込み/出力の実験のインスピレーションをくれたZeroWwに感謝します。
📦 インストール
huggingface-cliを使用したダウンロード
まず、huggingface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードしたい特定のファイルを指定できます。
huggingface-cli download bartowski/Phi-3.5-mini-instruct_Uncensored-GGUF --include "Phi-3.5-mini-instruct_Uncensored-Q4_K_M.gguf" --local-dir ./
モデルが50GBより大きい場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。
huggingface-cli download bartowski/Phi-3.5-mini-instruct_Uncensored-GGUF --include "Phi-3.5-mini-instruct_Uncensored-Q8_0/*" --local-dir ./
新しいローカルディレクトリ(Phi-3.5-mini-instruct_Uncensored-Q8_0)を指定するか、すべてをその場所にダウンロードすることができます(./)。
📚 ドキュメント
どのファイルを選べばいいですか?
様々なパフォーマンスを示すグラフ付きの素晴らしい解説記事がArtefact2によって ここ に提供されています。
まず、実行できるモデルのサイズを把握する必要があります。これを行うには、あなたが持っているRAMおよび/またはVRAMの量を把握する必要があります。
モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めたいと思うでしょう。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化を選択してください。
絶対的な最高品質を望む場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化を選択してください。
次に、「I-量子化」または「K-量子化」を使用するかを決定する必要があります。
あまり考えたくない場合は、K-量子化のいずれかを選択してください。これらは 'QX_K_X' の形式で、Q5_K_Mのようなものです。
もっと詳しく調べたい場合は、この非常に便利な機能チャートをチェックすることができます。
llama.cpp機能マトリックス
基本的に、Q4以下を目指していて、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I-量子化を検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI-量子化はCPUとApple Metalでも使用できますが、同等のK-量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。
I-量子化はVulcan(これもAMD)と互換性がありません。したがって、AMDカードを持っている場合は、rocBLASビルドまたはVulcanビルドを使用しているかを再度確認してください。この記事を書いている時点で、LM StudioにはROCmサポートのプレビュー版があり、他の推論エンジンにはROCm用の特定のビルドがあります。
私の仕事をサポートしたい場合は、こちらのko-fiページを訪問してください:https://ko-fi.com/bartowski
📄 ライセンス
このプロジェクトは、Apache License 2.0の下でライセンスされています。