ブラックインクギルド_有害な予言_70B - GGUFオープンソース大規模モデル

ホーム

Black Ink Guild Pernicious Prophecy 70B GGUF

bartowskiによって開発

llama.cppに基づく70Bパラメータの大規模言語モデルの量子化バージョンで、さまざまな量子化オプションを提供して異なるハードウェア条件に対応します。

大規模言語モデル英語#70B大規模モデル #多段階量子化 #低メモリ最適化

ダウンロード数 198

リリース時間 : 2/5/2025

モデル概要

Pernicious Prophecy 70Bの量子化バージョンで、llama.cppを通じて効率的な推論を実現し、複数の量子化レベルを選択できます。

モデル特徴

多様な量子化オプション

Q8_0からIQ1_Mまで20種類以上の量子化レベルを提供し、異なるハードウェアのニーズを満たします。

高品質な出力

一部の量子化レベルは、モデルサイズを圧縮しながらも高品質な出力を維持します。

ハードウェア最適化

オンライン再パッケージングをサポートし、ARM/AVXハードウェアのパフォーマンスを自動的に最適化します。

幅広い互換性

LM Studio、llama.cppなどのさまざまな推論フレームワークと互換性があります。

モデル能力

テキスト生成

対話システム

コンテンツ作成

知識問答

使用事例

コンテンツ作成

創作執筆

小説、詩などの創造的なテキストコンテンツを生成します。

高品質の文学的な出力

スマートアシスタント

対話システム

スマートチャットボットを構築します。

自然でスムーズな対話体験

🚀 Black-Ink-GuildによるPernicious_Prophecy_70BのLlamacpp imatrix量子化

このプロジェクトは、llama.cpp のリリース b4585 を使用して、Black-Ink-GuildのPernicious_Prophecy_70Bモデルを量子化したものです。量子化により、モデルのサイズを削減し、パフォーマンスを向上させることができます。

元のモデル: https://huggingface.co/Black-Ink-Guild/Pernicious_Prophecy_70B

すべての量子化モデルは、imatrixオプションを使用し、ここのデータセットを用いて作成されています。

LM Studio で実行することもできますし、llama.cpp または他のllama.cppベースのプロジェクトで直接実行することも可能です。

✨ 主要な機能

多様な量子化タイプ：様々な量子化タイプ（Q8_0、Q6_K、Q5_K_Mなど）が用意されており、ユーザーのニーズに合わせて選択できます。
高速な実行：量子化によりモデルのサイズが削減され、GPUやCPUでの実行速度が向上します。
簡単なダウンロード方法：huggingface-cliを使用して、簡単にモデルをダウンロードできます。

📦 インストール

huggingface-cliを使用したダウンロード

まず、huggingface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードしたい特定のファイルを指定してダウンロードできます。

huggingface-cli download bartowski/Black-Ink-Guild_Pernicious_Prophecy_70B-GGUF --include "Black-Ink-Guild_Pernicious_Prophecy_70B-Q4_K_M.gguf" --local-dir ./

モデルが50GB以上の場合、複数のファイルに分割されていることがあります。この場合、すべてのファイルをローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/Black-Ink-Guild_Pernicious_Prophecy_70B-GGUF --include "Black-Ink-Guild_Pernicious_Prophecy_70B-Q8_0/*" --local-dir ./

新しいローカルディレクトリを指定することも、現在のディレクトリにダウンロードすることもできます。

💻 使用例

プロンプトフォーマット

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

ダウンロード可能なファイル一覧

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Pernicious_Prophecy_70B-Q8_0.gguf	Q8_0	74.98GB	true	非常に高い品質で、通常は必要ありませんが、利用可能な最大の量子化です。
Pernicious_Prophecy_70B-Q6_K.gguf	Q6_K	57.89GB	true	非常に高い品質で、ほぼ完璧です。おすすめ
Pernicious_Prophecy_70B-Q5_K_M.gguf	Q5_K_M	49.95GB	true	高品質です。おすすめ
Pernicious_Prophecy_70B-Q5_K_S.gguf	Q5_K_S	48.66GB	false	高品質です。おすすめ
Pernicious_Prophecy_70B-Q4_1.gguf	Q4_1	44.31GB	false	レガシーフォーマットで、Q4_K_Sと同様のパフォーマンスを持ち、Apple Siliconでのトークン/ワットが向上しています。
Pernicious_Prophecy_70B-Q4_K_M.gguf	Q4_K_M	42.52GB	false	良い品質で、ほとんどのユースケースでのデフォルトサイズです。おすすめ
Pernicious_Prophecy_70B-Q4_K_S.gguf	Q4_K_S	40.35GB	false	品質が少し低いですが、より多くのスペースを節約できます。おすすめ
Pernicious_Prophecy_70B-Q4_0.gguf	Q4_0	40.12GB	false	レガシーフォーマットで、ARMおよびAVX CPU推論用のオンライン再パッキングを提供します。
Pernicious_Prophecy_70B-IQ4_NL.gguf	IQ4_NL	40.05GB	false	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論用のオンライン再パッキングを提供します。
Pernicious_Prophecy_70B-Q3_K_XL.gguf	Q3_K_XL	38.06GB	false	埋め込みと出力重みにQ8_0を使用します。品質は低いですが、使用可能で、低RAM環境に適しています。
Pernicious_Prophecy_70B-IQ4_XS.gguf	IQ4_XS	37.90GB	false	適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスを持ちます。おすすめ
Pernicious_Prophecy_70B-Q3_K_L.gguf	Q3_K_L	37.14GB	false	品質は低いですが、使用可能で、低RAM環境に適しています。
Pernicious_Prophecy_70B-Q3_K_M.gguf	Q3_K_M	34.27GB	false	低品質です。
Pernicious_Prophecy_70B-IQ3_M.gguf	IQ3_M	31.94GB	false	中程度の品質で、Q3_K_Mに匹敵するパフォーマンスを持つ新しい方法です。
Pernicious_Prophecy_70B-Q3_K_S.gguf	Q3_K_S	30.91GB	false	低品質で、おすすめしません。
Pernicious_Prophecy_70B-IQ3_XXS.gguf	IQ3_XXS	27.47GB	false	低品質で、Q3量子化に匹敵するパフォーマンスを持つ新しい方法です。
Pernicious_Prophecy_70B-Q2_K_L.gguf	Q2_K_L	27.40GB	false	埋め込みと出力重みにQ8_0を使用します。非常に低い品質ですが、意外と使用可能です。
Pernicious_Prophecy_70B-Q2_K.gguf	Q2_K	26.38GB	false	非常に低い品質ですが、意外と使用可能です。
Pernicious_Prophecy_70B-IQ2_M.gguf	IQ2_M	24.12GB	false	比較的低い品質ですが、最先端の技術を使用して意外と使用可能です。
Pernicious_Prophecy_70B-IQ2_S.gguf	IQ2_S	22.24GB	false	低品質ですが、最先端の技術を使用して使用可能です。
Pernicious_Prophecy_70B-IQ2_XS.gguf	IQ2_XS	21.14GB	false	低品質ですが、最先端の技術を使用して使用可能です。
Pernicious_Prophecy_70B-IQ2_XXS.gguf	IQ2_XXS	19.10GB	false	非常に低い品質ですが、最先端の技術を使用して使用可能です。
Pernicious_Prophecy_70B-IQ1_M.gguf	IQ1_M	16.75GB	false	非常に低い品質で、おすすめしません。

📚 ドキュメント

埋め込み/出力重み

一部の量子化（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法で、埋め込みと出力重みが通常のデフォルト値ではなくQ8_0に量子化されています。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、ARMおよびAVXマシンでのパフォーマンスを向上させるために、メモリ内で重みをインターリーブしていました。

しかし、現在は「オンライン再パッキング」と呼ばれる重みの方法があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的に実行されます。

llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできず、代わりにQ4_0を使用する必要があります。

さらに、このPR により、IQ4_NLを使用すると、ARM用に重みを再パッキングすることができ、少し品質を向上させることができます。ただし、現在は4_4のみです。ロード時間は長くなる可能性がありますが、全体的な速度が向上します。

どのファイルを選ぶべきか

詳細については、ここを参照してください。

まず、実行できるモデルのサイズを決定する必要があります。これには、システムのRAMとGPUのVRAMの量を確認する必要があります。

できるだけ高速にモデルを実行したい場合は、モデル全体をGPUのVRAMに収めることを目指します。GPUの総VRAMよりも1-2GB小さいファイルサイズの量子化を選択してください。

絶対的な最高品質を求める場合は、システムのRAMとGPUのVRAMを合計し、その合計よりも1-2GB小さいファイルサイズの量子化を選択してください。

次に、「I-量子化」または「K-量子化」を使用するかを決定する必要があります。

あまり考えたくない場合は、K-量子化のいずれかを選択してください。これらは 'QX_K_X' 形式で、Q5_K_Mのようなものです。

もっと詳細に調べたい場合は、以下の非常に便利な機能チャートを参照してください。

llama.cpp feature matrix

基本的に、Q4以下を目指し、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-量子化を検討してください。これらはIQX_X形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI-量子化は、CPUおよびApple Metalでも使用できますが、同等のK-量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。

I-量子化はVulcanと互換性がありません。VulcanもAMDのものです。したがって、AMDカードを使用している場合は、rocBLASビルドまたはVulcanビルドを使用しているかを確認してください。この記事を書いている時点では、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。