NeuralDaredevil-8B-abliterated-GGUFオープンソースモデル - 複数の量子化タイプで異なるハードウェア要件に対応

Neuraldaredevil 8B Abliterated GGUF

bartowskiによって開発

これはNeuralDaredevil-8B-abliteratedモデルを量子化処理したバージョンで、さまざまな量子化タイプのモデルファイルを提供し、異なるハードウェア条件とニーズを持つユーザーに適しています。

大規模言語モデルオープンソースライセンス:その他 #多段階量子化選択 #低VRAM最適化 #高精度対話

ダウンロード数 577

リリース時間 : 6/5/2024

モデル概要

このモデルはNeuralDaredevil-8B-abliteratedに基づく量子化バージョンで、高から低まで異なる品質とサイズの量子化モデルファイルを提供し、ユーザーがハードウェア条件に合わせて適切なバージョンを選択できるようにします。

モデル特徴

複数の量子化タイプ

Q8_0、Q6_K、Q5_K_Mなど、高から低まで異なる品質とサイズの量子化モデルファイルを提供し、さまざまなユーザーのニーズを満たします。

特定データセットの量子化

すべての量子化モデルは`imatrix`オプションを使用し、特定のデータセットを使用して量子化されています。

明確なプロンプト形式

明確なプロンプト形式を提供し、ユーザーが使いやすくなっています。

モデル能力

テキスト生成

多言語対応

使用事例

テキスト生成

対話システム

対話システムの構築に使用でき、自然言語の応答を生成します。

コンテンツ作成

記事、物語などのコンテンツの生成に使用できます。

🚀 NeuralDaredevil-8B-abliteratedのLlamacpp imatrix量子化

このプロジェクトでは、llama.cpp のリリース b3086 を使用して量子化を行っています。元のモデルはこちらから入手できます。すべての量子化は、ここのデータセットを使用して、imatrixオプションで作成されています。

🚀 クイックスタート

このセクションでは、NeuralDaredevil-8B-abliteratedの量子化モデルの基本的な使い方を説明します。

プロンプトフォーマット

以下は、このモデルで使用するプロンプトのフォーマットです。

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

ファイルのダウンロード

以下の表から、必要なファイルを選択してダウンロードできます。

ファイル名	量子化タイプ	ファイルサイズ	説明
NeuralDaredevil-8B-abliterated-Q8_0.gguf	Q8_0	8.54GB	非常に高品質で、通常は必要ありませんが、利用可能な最大の量子化です。
NeuralDaredevil-8B-abliterated-Q6_K.gguf	Q6_K	6.59GB	非常に高品質で、ほぼ完璧で、推奨です。
NeuralDaredevil-8B-abliterated-Q5_K_M.gguf	Q5_K_M	5.73GB	高品質で、推奨です。
NeuralDaredevil-8B-abliterated-Q5_K_S.gguf	Q5_K_S	5.59GB	高品質で、推奨です。
NeuralDaredevil-8B-abliterated-Q4_K_M.gguf	Q4_K_M	4.92GB	良好な品質で、重みあたり約4.83ビットを使用し、推奨です。
NeuralDaredevil-8B-abliterated-Q4_K_S.gguf	Q4_K_S	4.69GB	品質がやや低いですが、より多くのスペースを節約でき、推奨です。
NeuralDaredevil-8B-abliterated-IQ4_XS.gguf	IQ4_XS	4.44GB	適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスを持ち、推奨です。
NeuralDaredevil-8B-abliterated-Q3_K_L.gguf	Q3_K_L	4.32GB	品質は低いですが、使用可能で、低RAM環境に適しています。
NeuralDaredevil-8B-abliterated-Q3_K_M.gguf	Q3_K_M	4.01GB	さらに品質が低いです。
NeuralDaredevil-8B-abliterated-IQ3_M.gguf	IQ3_M	3.78GB	中程度の品質で、Q3_K_Mと同等のパフォーマンスを持つ新しい方法です。
NeuralDaredevil-8B-abliterated-Q3_K_S.gguf	Q3_K_S	3.66GB	低品質で、推奨されません。
NeuralDaredevil-8B-abliterated-IQ3_XS.gguf	IQ3_XS	3.51GB	低品質ですが、適度なパフォーマンスを持つ新しい方法で、Q3_K_Sよりも少し良いです。
NeuralDaredevil-8B-abliterated-IQ3_XXS.gguf	IQ3_XXS	3.27GB	低品質ですが、適度なパフォーマンスを持つ新しい方法で、Q3量子化と同等です。
NeuralDaredevil-8B-abliterated-Q2_K.gguf	Q2_K	3.17GB	非常に低品質ですが、意外と使用可能です。
NeuralDaredevil-8B-abliterated-IQ2_M.gguf	IQ2_M	2.94GB	非常に低品質ですが、SOTA技術を使用しているため、意外と使用可能です。
NeuralDaredevil-8B-abliterated-IQ2_S.gguf	IQ2_S	2.75GB	非常に低品質ですが、SOTA技術を使用しているため、使用可能です。
NeuralDaredevil-8B-abliterated-IQ2_XS.gguf	IQ2_XS	2.60GB	非常に低品質ですが、SOTA技術を使用しているため、使用可能です。

huggingface-cliを使用したダウンロード

まず、huggingface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、特定のファイルをダウンロードすることができます。

huggingface-cli download bartowski/NeuralDaredevil-8B-abliterated-GGUF --include "NeuralDaredevil-8B-abliterated-Q4_K_M.gguf" --local-dir ./

モデルが50GB以上の場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。

huggingface-cli download bartowski/NeuralDaredevil-8B-abliterated-GGUF --include "NeuralDaredevil-8B-abliterated-Q8_0.gguf/*" --local-dir NeuralDaredevil-8B-abliterated-Q8_0

新しいローカルディレクトリ（NeuralDaredevil-8B-abliterated-Q8_0）を指定するか、すべてを現在のディレクトリ（./）にダウンロードすることができます。

📚 詳細ドキュメント

どのファイルを選べばいいですか？

Artefact2によるこちらの記事では、様々なパフォーマンスを示すグラフが提供されています。

まず、実行できるモデルのサイズを判断する必要があります。これには、持っているRAMおよび/またはVRAMの量を把握する必要があります。

モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることが望ましいです。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化を選択してください。

最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化を選択してください。

次に、'I-quant' または 'K-quant' を使用するかを決定する必要があります。

あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは 'QX_K_X' の形式で、例えばQ5_K_Mのようになります。

もっと詳細を知りたい場合は、この非常に便利な機能チャートを参照することができます。

基本的に、Q4以下を目指しており、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、例えばIQ3_Mのようになります。これらは新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI-quantは、CPUおよびApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。

I-quantはVulcan（AMD）と互換性がないため、AMDカードを使用している場合は、rocBLASビルドまたはVulcanビルドを使用しているかを確認してください。この記事を書いている時点では、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。