WizardLM-2-7B-abliterated-GGUFオープンソースAIモデル - 多様な量子化が異なるハードウェア構成に対応

ホーム

Wizardlm 2 7B Abliterated GGUF

bartowskiによって開発

WizardLM-2-7B-abliteratedのLlamacpp imatrix量子化バージョンで、さまざまな量子化オプションを提供し、異なるハードウェア構成に対応します。

大規模言語モデルオープンソースライセンス:Apache-2.0 #マルチ量子化バージョン #テキスト生成最適化 #低リソース適応

ダウンロード数 2,561

リリース時間 : 5/26/2024

モデル概要

これはWizardLM-2-7B-abliteratedモデルに基づく量子化バージョンで、llama.cppを使用して量子化されており、テキスト生成タスクに適しています。

モデル特徴

多様な量子化オプション

Q8_0からIQ1_Sまでのさまざまな量子化バージョンを提供し、異なるハードウェア要件に対応します。

高性能推論

imatrix量子化方法を使用し、推論性能を最適化します。

推奨量子化バージョン

Q6_K、Q5_K_M、Q5_K_S、Q4_K_M、Q4_K_S、IQ4_NL、IQ4_XSなどのバージョンが推奨されます。

モデル能力

テキスト生成

マルチターン対話

指示追従

使用事例

対話システム

インテリジェントアシスタント

マルチターンインタラクションをサポートするインテリジェント対話アシスタントの構築に使用されます。

コンテンツ生成

テキスト創作

記事、ストーリー、その他のクリエイティブなテキストコンテンツを生成します。

🚀 WizardLM-2-7B-abliteratedのLlamacpp imatrix量子化

このプロジェクトは、llama.cpp のリリース b2965 を使用して、WizardLM-2-7B-abliteratedモデルの量子化を行っています。

🚀 クイックスタート

元のモデル

元のモデルはこちらから入手できます: WizardLM-2-7B-abliterated

プロンプトフォーマット

{system_prompt} USER: {prompt} ASSISTANT: </s>

ファイルのダウンロード

以下のテーブルから、必要な量子化ファイルを選択してダウンロードできます。

ファイル名	量子化タイプ	ファイルサイズ	説明
WizardLM-2-7B-abliterated-Q8_0.gguf	Q8_0	7.69GB	非常に高品質ですが、通常は必要ありません。利用可能な最大の量子化です。
WizardLM-2-7B-abliterated-Q6_K.gguf	Q6_K	5.94GB	非常に高品質で、ほぼ完璧です。おすすめです。
WizardLM-2-7B-abliterated-Q5_K_M.gguf	Q5_K_M	5.13GB	高品質です。おすすめです。
WizardLM-2-7B-abliterated-Q5_K_S.gguf	Q5_K_S	4.99GB	高品質です。おすすめです。
WizardLM-2-7B-abliterated-Q4_K_M.gguf	Q4_K_M	4.36GB	良好な品質で、1重みあたり約4.83ビットを使用します。おすすめです。
WizardLM-2-7B-abliterated-Q4_K_S.gguf	Q4_K_S	4.14GB	品質がやや低いですが、より多くのスペースを節約できます。おすすめです。
WizardLM-2-7B-abliterated-IQ4_NL.gguf	IQ4_NL	4.12GB	適度な品質で、Q4_K_Sよりもやや小さく、同様のパフォーマンスを持ちます。おすすめです。
WizardLM-2-7B-abliterated-IQ4_XS.gguf	IQ4_XS	3.90GB	適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスを持ちます。おすすめです。
WizardLM-2-7B-abliterated-Q3_K_L.gguf	Q3_K_L	3.82GB	品質は低いですが、使用可能です。低RAM環境に適しています。
WizardLM-2-7B-abliterated-Q3_K_M.gguf	Q3_K_M	3.51GB	さらに品質が低いです。
WizardLM-2-7B-abliterated-IQ3_M.gguf	IQ3_M	3.28GB	中程度の品質で、Q3_K_Mに匹敵するパフォーマンスを持つ新しい方法です。
WizardLM-2-7B-abliterated-IQ3_S.gguf	IQ3_S	3.18GB	品質は低いですが、適度なパフォーマンスを持つ新しい方法です。Q3_K_S量子化よりもおすすめで、同じサイズでより良いパフォーマンスを持ちます。
WizardLM-2-7B-abliterated-Q3_K_S.gguf	Q3_K_S	3.16GB	低品質で、おすすめできません。
WizardLM-2-7B-abliterated-IQ3_XS.gguf	IQ3_XS	3.01GB	品質は低いですが、適度なパフォーマンスを持つ新しい方法です。Q3_K_Sよりもやや良いです。
WizardLM-2-7B-abliterated-IQ3_XXS.gguf	IQ3_XXS	2.82GB	品質は低いですが、適度なパフォーマンスを持つ新しい方法です。Q3量子化に匹敵します。
WizardLM-2-7B-abliterated-Q2_K.gguf	Q2_K	2.71GB	非常に低品質ですが、意外と使用可能です。
WizardLM-2-7B-abliterated-IQ2_M.gguf	IQ2_M	2.50GB	非常に低品質ですが、最先端の技術を使用しているため、意外と使用可能です。
WizardLM-2-7B-abliterated-IQ2_S.gguf	IQ2_S	2.31GB	非常に低品質ですが、最先端の技術を使用しているため、使用可能です。
WizardLM-2-7B-abliterated-IQ2_XS.gguf	IQ2_XS	2.19GB	非常に低品質ですが、最先端の技術を使用しているため、使用可能です。
WizardLM-2-7B-abliterated-IQ2_XXS.gguf	IQ2_XXS	1.99GB	品質は低いですが、最先端の技術を使用しているため、使用可能です。
WizardLM-2-7B-abliterated-IQ1_M.gguf	IQ1_M	1.75GB	非常に低品質で、おすすめできません。
WizardLM-2-7B-abliterated-IQ1_S.gguf	IQ1_S	1.61GB	非常に低品質で、おすすめできません。

huggingface-cliを使用したダウンロード

まず、huggingface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードしたい特定のファイルを指定できます。

huggingface-cli download bartowski/WizardLM-2-7B-abliterated-GGUF --include "WizardLM-2-7B-abliterated-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/WizardLM-2-7B-abliterated-GGUF --include "WizardLM-2-7B-abliterated-Q8_0.gguf/*" --local-dir WizardLM-2-7B-abliterated-Q8_0

新しいローカルディレクトリ（WizardLM-2-7B-abliterated-Q8_0）を指定するか、すべてを現在のディレクトリ（./）にダウンロードできます。

💻 使用例

基本的な使用法

# huggingface-cliのインストール
pip install -U "huggingface_hub[cli]"

# 特定のファイルのダウンロード
huggingface-cli download bartowski/WizardLM-2-7B-abliterated-GGUF --include "WizardLM-2-7B-abliterated-Q4_K_M.gguf" --local-dir ./

# 分割されたファイルのダウンロード
huggingface-cli download bartowski/WizardLM-2-7B-abliterated-GGUF --include "WizardLM-2-7B-abliterated-Q8_0.gguf/*" --local-dir WizardLM-2-7B-abliterated-Q8_0

📚 詳細ドキュメント

どのファイルを選ぶべきか？

Artefact2による様々なパフォーマンスを示すチャート付きの素晴らしい記事がこちらにあります。

まず、実行できるモデルのサイズを判断する必要があります。これには、利用可能なRAMおよび/またはVRAMの量を把握する必要があります。

モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることを目指します。GPUの総VRAMよりも1-2GB小さいファイルサイズの量子化を選択してください。

最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1-2GB小さいファイルサイズの量子化を選択してください。

次に、'I-quant'または'K-quant'を使用するかを決定する必要があります。

あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは'QX_K_X'の形式で、例えばQ5_K_Mです。

もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックしてください。

llama.cpp feature matrix

基本的に、Q4以下を目指し、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、例えばIQ3_Mです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI-quantはCPUおよびApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。

I-quantはVulcan（AMD）と互換性がありません。したがって、AMDカードを使用している場合は、rocBLASビルドまたはVulcanビルドを使用しているかを確認してください。この記事を書いている時点で、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。