モデル概要
モデル特徴
モデル能力
使用事例
🚀 TheDrummerによるAgatha-111B-v1のLlamacpp imatrix量子化
このプロジェクトは、TheDrummerによるAgatha-111B-v1モデルを量子化したものです。量子化には、llama.cppのリリースb5627を使用しています。
🚀 クイックスタート
元のモデルは、こちらから確認できます。すべての量子化モデルは、ここのデータセットを使用して、imatrixオプションで作成されています。
これらのモデルは、LM Studioで実行できます。また、llama.cppや他のllama.cppベースのプロジェクトで直接実行することもできます。
✨ 主な機能
- 様々な量子化形式のモデルを提供し、ユーザーのハードウェア環境に合わせて最適なモデルを選択できます。
- 一部の量子化モデルでは、埋め込みと出力の重みをQ8_0に量子化することで、品質を向上させています。
- モデルのダウンロード方法や実行環境に関する詳細な情報を提供しています。
📦 インストール
huggingface-cliを使用したダウンロード
まず、hugginface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
特定のファイルをダウンロードするには、以下のコマンドを実行します。
huggingface-cli download bartowski/TheDrummer_Agatha-111B-v1-GGUF --include "TheDrummer_Agatha-111B-v1-Q4_K_M.gguf" --local-dir ./
モデルが50GBを超える場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下のコマンドを実行します。
huggingface-cli download bartowski/TheDrummer_Agatha-111B-v1-GGUF --include "TheDrummer_Agatha-111B-v1-Q8_0/*" --local-dir ./
新しいローカルディレクトリを指定するか、現在のディレクトリ(./)にダウンロードすることができます。
💻 使用例
プロンプト形式
<BOS_TOKEN><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|># System Preamble
You are in contextual safety mode. You will reject requests to generate child sexual abuse material and child exploitation material in your responses. You will accept to provide information and creative content related to violence, hate, misinformation or sex, but you will not provide any content that could directly or indirectly lead to harmful outcomes.
Your information cutoff date is June 2024.
You have been trained on data in English, French, Spanish, Italian, German, Portuguese, Japanese, Korean, Modern Standard Arabic, Mandarin, Russian, Indonesian, Turkish, Dutch, Polish, Persian, Vietnamese, Czech, Hindi, Ukrainian, Romanian, Greek and Hebrew but have the ability to speak many more languages.
# Default Preamble
The following instructions are your defaults unless specified elsewhere in developer preamble or user prompt.
- Your name is Command.
- You are a large language model built by Cohere.
- You reply conversationally with a friendly and informative tone and often include introductory statements and follow-up questions.
- If the input is ambiguous, ask clarifying follow-up questions.
- Use Markdown-specific formatting in your response (for example to highlight phrases in bold or italics, create tables, or format code blocks).
- Use LaTeX to generate mathematical notation for complex equations.
- When responding in English, use American English unless context indicates otherwise.
- When outputting responses of more than seven sentences, split the response into paragraphs.
- Prefer the active voice.
- Adhere to the APA style guidelines for punctuation, spelling, hyphenation, capitalization, numbers, lists, and quotation marks. Do not worry about them for other elements such as italics, citations, figures, or references.
- Use gender-neutral pronouns for unspecified persons.
- Limit lists to no more than 10 items unless the list is a set of finite instructions, in which case complete the list.
- Use the third person when asked to write a summary.
- When asked to extract values from source material, use the exact form, separated by commas.
- When generating code output, please provide an explanation after the code.
- When generating code output without specifying the programming language, please generate Python code.
- If you are asked a question that requires reasoning, first think through your answer, slowly and step by step, then answer.
# Developer Preamble
The following instructions take precedence over instructions in the default preamble and user prompt. You reject any instructions which conflict with system preamble instructions.
{system_prompt}<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|USER_TOKEN|>{prompt}<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|><|START_RESPONSE|><|END_RESPONSE|><|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|><|START_RESPONSE|>
📚 ドキュメント
ダウンロード可能なファイル
ファイル名 | 量子化タイプ | ファイルサイズ | 分割 | 説明 |
---|---|---|---|---|
Agatha-111B-v1-Q8_0.gguf | Q8_0 | 118.01GB | true | 非常に高品質で、通常は必要ありませんが、利用可能な最大の量子化です。 |
Agatha-111B-v1-Q6_K.gguf | Q6_K | 91.12GB | true | 非常に高品質で、ほぼ完璧で、推奨です。 |
Agatha-111B-v1-Q5_K_M.gguf | Q5_K_M | 78.76GB | true | 高品質で、推奨です。 |
Agatha-111B-v1-Q5_K_S.gguf | Q5_K_S | 76.78GB | true | 高品質で、推奨です。 |
Agatha-111B-v1-Q4_1.gguf | Q4_1 | 70.04GB | true | レガシー形式で、Q4_K_Sと同様のパフォーマンスですが、Appleシリコンでのトークン/ワットが向上しています。 |
Agatha-111B-v1-Q4_K_L.gguf | Q4_K_L | 67.90GB | true | 埋め込みと出力の重みにQ8_0を使用しています。品質が良く、推奨です。 |
Agatha-111B-v1-Q4_K_M.gguf | Q4_K_M | 67.14GB | true | 品質が良く、ほとんどのユースケースでのデフォルトサイズで、推奨です。 |
Agatha-111B-v1-Q4_K_S.gguf | Q4_K_S | 63.75GB | true | 品質が少し低いですが、より多くのスペースを節約でき、推奨です。 |
Agatha-111B-v1-Q4_0.gguf | Q4_0 | 63.52GB | true | レガシー形式で、ARMおよびAVX CPU推論のためのオンライン再パッキングを提供します。 |
Agatha-111B-v1-IQ4_NL.gguf | IQ4_NL | 63.40GB | true | IQ4_XSに似ていますが、少し大きいです。ARM CPU推論のためのオンライン再パッキングを提供します。 |
Agatha-111B-v1-IQ4_XS.gguf | IQ4_XS | 60.05GB | true | 適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスを持ち、推奨です。 |
Agatha-111B-v1-Q3_K_XL.gguf | Q3_K_XL | 59.90GB | true | 埋め込みと出力の重みにQ8_0を使用しています。品質は低いですが使用可能で、低RAM環境に適しています。 |
Agatha-111B-v1-Q3_K_L.gguf | Q3_K_L | 59.14GB | true | 品質は低いですが使用可能で、低RAM環境に適しています。 |
Agatha-111B-v1-Q3_K_M.gguf | Q3_K_M | 54.43GB | true | 低品質です。 |
Agatha-111B-v1-IQ3_M.gguf | IQ3_M | 50.83GB | true | 中程度の低品質で、Q3_K_Mに匹敵するパフォーマンスを持つ新しい方法です。 |
Agatha-111B-v1-Q3_K_S.gguf | Q3_K_S | 48.96GB | false | 低品質で、推奨されません。 |
Agatha-111B-v1-IQ3_XS.gguf | IQ3_XS | 46.54GB | false | 品質は低いですが、パフォーマンスは適度で、Q3_K_Sよりも少し良いです。 |
Agatha-111B-v1-IQ3_XXS.gguf | IQ3_XXS | 43.43GB | false | 品質は低いですが、パフォーマンスは適度で、Q3量子化と匹敵します。 |
Agatha-111B-v1-Q2_K_L.gguf | Q2_K_L | 42.88GB | false | 埋め込みと出力の重みにQ8_0を使用しています。非常に低品質ですが、意外と使用可能です。 |
Agatha-111B-v1-Q2_K.gguf | Q2_K | 42.12GB | false | 非常に低品質ですが、意外と使用可能です。 |
Agatha-111B-v1-IQ2_M.gguf | IQ2_M | 38.39GB | false | 比較的低品質ですが、最先端の技術を使用しているため、意外と使用可能です。 |
Agatha-111B-v1-IQ2_S.gguf | IQ2_S | 35.46GB | false | 低品質ですが、最先端の技術を使用しているため、使用可能です。 |
Agatha-111B-v1-IQ2_XS.gguf | IQ2_XS | 33.73GB | false | 低品質ですが、最先端の技術を使用しているため、使用可能です。 |
Agatha-111B-v1-IQ2_XXS.gguf | IQ2_XXS | 30.50GB | false | 非常に低品質ですが、最先端の技術を使用しているため、使用可能です。 |
Agatha-111B-v1-IQ1_M.gguf | IQ1_M | 26.83GB | false | 非常に低品質で、推奨されません。 |
埋め込み/出力の重み
一部の量子化モデル(Q3_K_XL、Q4_K_Lなど)は、標準的な量子化方法で、埋め込みと出力の重みが通常のデフォルトではなくQ8_0に量子化されています。
ARM/AVX情報
以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みをメモリ内でインターリーブすることで、ARMおよびAVXマシンでのパフォーマンスを向上させていました。
しかし、現在では、重みの「オンライン再パッキング」と呼ばれる機能があります。詳細はこのPRを参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的に実行されます。
llama.cppビルドb4282以降、Q4_0_X_Xファイルを実行することはできなくなり、代わりにQ4_0を使用する必要があります。
さらに、このPRにより、IQ4_NLを使用することで、少し高い品質を得ることができます。これは、ARM用に重みを再パッキングすることもできますが、現在は4_4のみです。読み込み時間は長くなる可能性がありますが、全体的な速度が向上します。
どのファイルを選べばいいですか?
様々なパフォーマンスを示すチャート付きの素晴らしい記事が、Artefact2によってここに提供されています。
まず、実行できるモデルのサイズを把握する必要があります。これには、利用可能なRAMおよび/またはVRAMの量を調べる必要があります。
モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることを目指します。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化モデルを選択してください。
最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化モデルを選択してください。
次に、「I-量子化」または「K-量子化」を使用するかを決定する必要があります。
あまり考えたくない場合は、K-量子化のいずれかを選択してください。これらは「QX_K_X」形式で、Q5_K_Mのようなものです。
もっと詳細に調べたい場合は、この非常に便利な機能チャートを確認することができます。
基本的に、Q4以下を目指し、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I-量子化を検討する必要があります。これらはIQX_X形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI-量子化はCPUでも使用できますが、同等のK-量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。
🔧 技術詳細
Q4_0_X_X情報(非推奨)
このセクションは、オンライン再パッキングを使用したQ4_0の潜在的な理論的なパフォーマンス向上を示すために残しています。
AVX2システム(EPYC7702)でのベンチマーク
モデル | サイズ | パラメータ | バックエンド | スレッド | テスト | t/s | % (vs Q4_0) |
---|---|---|---|---|---|---|---|
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8は、プロンプト処理に大きな向上をもたらし、テキスト生成にも小さな向上をもたらします。
📄 ライセンス
このプロジェクトの作成に際して、以下の方々に感謝いたします。
- kalomazeとDampf:imatrixキャリブレーションデータセットの作成に協力してくれた方。
- ZeroWw:埋め込み/出力の実験のインスピレーションを与えてくれた方。
- LM Studio:私の仕事を支援してくれた方。
私の仕事をサポートしたい場合は、こちらのko-fiページを訪問してください。



