🚀 NeuralDaredevil-8B-abliteratedのLlamacpp imatrix量子化
このプロジェクトでは、llama.cpp のリリース b3086 を使用して量子化を行っています。元のモデルは こちら から入手できます。すべての量子化は、ここ のデータセットを使用して、imatrixオプションで作成されています。
🚀 クイックスタート
このセクションでは、NeuralDaredevil-8B-abliteratedの量子化モデルの基本的な使い方を説明します。
プロンプトフォーマット
以下は、このモデルで使用するプロンプトのフォーマットです。
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>
{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
ファイルのダウンロード
以下の表から、必要なファイルを選択してダウンロードできます。
huggingface-cliを使用したダウンロード
まず、huggingface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、特定のファイルをダウンロードすることができます。
huggingface-cli download bartowski/NeuralDaredevil-8B-abliterated-GGUF --include "NeuralDaredevil-8B-abliterated-Q4_K_M.gguf" --local-dir ./
モデルが50GB以上の場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。
huggingface-cli download bartowski/NeuralDaredevil-8B-abliterated-GGUF --include "NeuralDaredevil-8B-abliterated-Q8_0.gguf/*" --local-dir NeuralDaredevil-8B-abliterated-Q8_0
新しいローカルディレクトリ(NeuralDaredevil-8B-abliterated-Q8_0)を指定するか、すべてを現在のディレクトリ(./)にダウンロードすることができます。
📚 詳細ドキュメント
どのファイルを選べばいいですか?
Artefact2による こちら の記事では、様々なパフォーマンスを示すグラフが提供されています。
まず、実行できるモデルのサイズを判断する必要があります。これには、持っているRAMおよび/またはVRAMの量を把握する必要があります。
モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることが望ましいです。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化を選択してください。
最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化を選択してください。
次に、'I-quant' または 'K-quant' を使用するかを決定する必要があります。
あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは 'QX_K_X' の形式で、例えばQ5_K_Mのようになります。
もっと詳細を知りたい場合は、この非常に便利な機能チャート を参照することができます。
基本的に、Q4以下を目指しており、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、例えばIQ3_Mのようになります。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI-quantは、CPUおよびApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。
I-quantはVulcan(AMD)と互換性がないため、AMDカードを使用している場合は、rocBLASビルドまたはVulcanビルドを使用しているかを確認してください。この記事を書いている時点では、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。
支援の申し出
もし私の仕事を支援したい場合は、こちら のko-fiページにアクセスしてください。
📄 ライセンス
このプロジェクトは、他のライセンスの下で提供されています。詳細については、元のモデルのリポジトリを参照してください。