🚀 Llama-3-70B-Instruct-abliteratedのLlamacpp imatrix量子化
このプロジェクトは、llama.cpp のリリース b2854 を使用して、llama-3-70B-Instruct-abliteratedモデルの量子化を行っています。元のモデルは こちら です。すべての量子化は、ここ のデータセットを使用して、imatrixオプションで行われています。
🚀 クイックスタート
プロンプトフォーマット
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>
{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
ファイルのダウンロード
以下の表から特定のファイルを選択してダウンロードできます。
huggingface-cliを使用したダウンロード
まず、huggingface-cliをインストールしてください。
pip install -U "huggingface_hub[cli]"
次に、特定のファイルをダウンロードすることができます。
huggingface-cli download bartowski/llama-3-70B-Instruct-abliterated-GGUF --include "llama-3-70B-Instruct-abliterated-Q4_K_M.gguf" --local-dir ./ --local-dir-use-symlinks False
モデルが50GB以上の場合、複数のファイルに分割されています。すべてのファイルをローカルフォルダにダウンロードするには、次のコマンドを実行します。
huggingface-cli download bartowski/llama-3-70B-Instruct-abliterated-GGUF --include "llama-3-70B-Instruct-abliterated-Q8_0.gguf/*" --local-dir llama-3-70B-Instruct-abliterated-Q8_0 --local-dir-use-symlinks False
新しいローカルディレクトリ (llama-3-70B-Instruct-abliterated-Q8_0
) を指定するか、すべてを現在のディレクトリ (./
) にダウンロードすることができます。
📚 詳細ドキュメント
どのファイルを選べばいいですか?
Artefact2による、様々なパフォーマンスを示すチャート付きの素晴らしい記事が こちら にあります。
まず、実行できるモデルのサイズを把握する必要があります。これには、持っているRAMと/またはVRAMの量を把握する必要があります。
モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることを目指します。GPUの総VRAMより1 - 2GB小さいファイルサイズの量子化を選択してください。
最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計より1 - 2GB小さいファイルサイズの量子化を選択してください。
次に、'I-quant' または 'K-quant' を使用するかを決める必要があります。
あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは 'QX_K_X' の形式で、例えば Q5_K_M です。
もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックしてください。
llama.cpp feature matrix
基本的に、Q4以下を目指しており、cuBLAS (Nvidia) または rocBLAS (AMD) を使用している場合は、I-quantを検討する必要があります。これらは IQX_X の形式で、例えば IQ3_M です。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI-quantはCPUとApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決める必要があります。
I-quantはVulcan (AMD) と互換性がありません。したがって、AMDカードを持っている場合は、rocBLASビルドまたはVulcanビルドを使用しているかを確認してください。この記事を書いている時点で、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。
支援について
このプロジェクトを支援したい場合は、こちら のko-fiページを訪問してください。
📄 ライセンス
このプロジェクトはLlama3のライセンスの下で提供されています。詳細については こちら を参照してください。