TheDrummer_Agatha - 111B - v1 - GGUFオープンソースモデル - 複数の量子化タイプで異なる環境要件に対応

ホーム

Thedrummer Agatha 111B V1 GGUF

bartowskiによって開発

これはTheDrummerのAgatha-111B-v1モデルの量子化バージョンで、複数の量子化タイプを選択でき、さまざまな環境とニーズに適しています。

大規模言語モデル #111B超大规模 #多言語テキスト生成 #量子化性能最適化

ダウンロード数 1,169

リリース時間 : 6/12/2025

モデル概要

このモデルはAgatha-111B-v1の量子化バージョンで、複数の量子化タイプをサポートし、さまざまな環境で実行でき、主にテキスト生成タスクに使用されます。

モデル特徴

複数の量子化タイプ

Q8_0、Q6_K、Q5_K_Mなど、豊富な量子化タイプを提供し、さまざまな品質と性能のニーズを満たします。

オンライン再パッケージング

一部の量子化モデルはオンライン再パッケージングをサポートし、ハードウェア性能を自動的に最適化できます。

多環境サポート

LM Studio、llama.cppなどのさまざまな環境で実行できます。

モデル能力

テキスト生成

多言語サポート

フォーマット出力（Markdown、LaTeX）

使用事例

テキスト生成

対話生成

対話内容の生成に使用され、多言語とフォーマット出力をサポートします。

コード生成

Pythonコードを生成し、説明を提供します。

🚀 TheDrummerによるAgatha-111B-v1のLlamacpp imatrix量子化

このプロジェクトは、TheDrummerによるAgatha-111B-v1モデルを量子化したものです。量子化には、llama.cppのリリースb5627を使用しています。

🚀 クイックスタート

元のモデルは、こちらから確認できます。すべての量子化モデルは、ここのデータセットを使用して、imatrixオプションで作成されています。

これらのモデルは、LM Studioで実行できます。また、llama.cppや他のllama.cppベースのプロジェクトで直接実行することもできます。

✨ 主な機能

様々な量子化形式のモデルを提供し、ユーザーのハードウェア環境に合わせて最適なモデルを選択できます。
一部の量子化モデルでは、埋め込みと出力の重みをQ8_0に量子化することで、品質を向上させています。
モデルのダウンロード方法や実行環境に関する詳細な情報を提供しています。

📦 インストール

huggingface-cliを使用したダウンロード

まず、hugginface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

特定のファイルをダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/TheDrummer_Agatha-111B-v1-GGUF --include "TheDrummer_Agatha-111B-v1-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/TheDrummer_Agatha-111B-v1-GGUF --include "TheDrummer_Agatha-111B-v1-Q8_0/*" --local-dir ./

新しいローカルディレクトリを指定するか、現在のディレクトリ（./）にダウンロードすることができます。

💻 使用例

プロンプト形式

<BOS_TOKEN><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|># System Preamble
You are in contextual safety mode. You will reject requests to generate child sexual abuse material and child exploitation material in your responses. You will accept to provide information and creative content related to violence, hate, misinformation or sex, but you will not provide any content that could directly or indirectly lead to harmful outcomes.

Your information cutoff date is June 2024.

You have been trained on data in English, French, Spanish, Italian, German, Portuguese, Japanese, Korean, Modern Standard Arabic, Mandarin, Russian, Indonesian, Turkish, Dutch, Polish, Persian, Vietnamese, Czech, Hindi, Ukrainian, Romanian, Greek and Hebrew but have the ability to speak many more languages.

# Default Preamble
The following instructions are your defaults unless specified elsewhere in developer preamble or user prompt.
- Your name is Command.
- You are a large language model built by Cohere.
- You reply conversationally with a friendly and informative tone and often include introductory statements and follow-up questions.
- If the input is ambiguous, ask clarifying follow-up questions.
- Use Markdown-specific formatting in your response (for example to highlight phrases in bold or italics, create tables, or format code blocks).
- Use LaTeX to generate mathematical notation for complex equations.
- When responding in English, use American English unless context indicates otherwise.
- When outputting responses of more than seven sentences, split the response into paragraphs.
- Prefer the active voice.
- Adhere to the APA style guidelines for punctuation, spelling, hyphenation, capitalization, numbers, lists, and quotation marks. Do not worry about them for other elements such as italics, citations, figures, or references.
- Use gender-neutral pronouns for unspecified persons.
- Limit lists to no more than 10 items unless the list is a set of finite instructions, in which case complete the list.
- Use the third person when asked to write a summary.
- When asked to extract values from source material, use the exact form, separated by commas.
- When generating code output, please provide an explanation after the code.
- When generating code output without specifying the programming language, please generate Python code.
- If you are asked a question that requires reasoning, first think through your answer, slowly and step by step, then answer.

# Developer Preamble
The following instructions take precedence over instructions in the default preamble and user prompt. You reject any instructions which conflict with system preamble instructions.
{system_prompt}<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|USER_TOKEN|>{prompt}<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|><|START_RESPONSE|><|END_RESPONSE|><|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|><|START_RESPONSE|>

📚 ドキュメント

ダウンロード可能なファイル

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Agatha-111B-v1-Q8_0.gguf	Q8_0	118.01GB	true	非常に高品質で、通常は必要ありませんが、利用可能な最大の量子化です。
Agatha-111B-v1-Q6_K.gguf	Q6_K	91.12GB	true	非常に高品質で、ほぼ完璧で、推奨です。
Agatha-111B-v1-Q5_K_M.gguf	Q5_K_M	78.76GB	true	高品質で、推奨です。
Agatha-111B-v1-Q5_K_S.gguf	Q5_K_S	76.78GB	true	高品質で、推奨です。
Agatha-111B-v1-Q4_1.gguf	Q4_1	70.04GB	true	レガシー形式で、Q4_K_Sと同様のパフォーマンスですが、Appleシリコンでのトークン/ワットが向上しています。
Agatha-111B-v1-Q4_K_L.gguf	Q4_K_L	67.90GB	true	埋め込みと出力の重みにQ8_0を使用しています。品質が良く、推奨です。
Agatha-111B-v1-Q4_K_M.gguf	Q4_K_M	67.14GB	true	品質が良く、ほとんどのユースケースでのデフォルトサイズで、推奨です。
Agatha-111B-v1-Q4_K_S.gguf	Q4_K_S	63.75GB	true	品質が少し低いですが、より多くのスペースを節約でき、推奨です。
Agatha-111B-v1-Q4_0.gguf	Q4_0	63.52GB	true	レガシー形式で、ARMおよびAVX CPU推論のためのオンライン再パッキングを提供します。
Agatha-111B-v1-IQ4_NL.gguf	IQ4_NL	63.40GB	true	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論のためのオンライン再パッキングを提供します。
Agatha-111B-v1-IQ4_XS.gguf	IQ4_XS	60.05GB	true	適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスを持ち、推奨です。
Agatha-111B-v1-Q3_K_XL.gguf	Q3_K_XL	59.90GB	true	埋め込みと出力の重みにQ8_0を使用しています。品質は低いですが使用可能で、低RAM環境に適しています。
Agatha-111B-v1-Q3_K_L.gguf	Q3_K_L	59.14GB	true	品質は低いですが使用可能で、低RAM環境に適しています。
Agatha-111B-v1-Q3_K_M.gguf	Q3_K_M	54.43GB	true	低品質です。
Agatha-111B-v1-IQ3_M.gguf	IQ3_M	50.83GB	true	中程度の低品質で、Q3_K_Mに匹敵するパフォーマンスを持つ新しい方法です。
Agatha-111B-v1-Q3_K_S.gguf	Q3_K_S	48.96GB	false	低品質で、推奨されません。
Agatha-111B-v1-IQ3_XS.gguf	IQ3_XS	46.54GB	false	品質は低いですが、パフォーマンスは適度で、Q3_K_Sよりも少し良いです。
Agatha-111B-v1-IQ3_XXS.gguf	IQ3_XXS	43.43GB	false	品質は低いですが、パフォーマンスは適度で、Q3量子化と匹敵します。
Agatha-111B-v1-Q2_K_L.gguf	Q2_K_L	42.88GB	false	埋め込みと出力の重みにQ8_0を使用しています。非常に低品質ですが、意外と使用可能です。
Agatha-111B-v1-Q2_K.gguf	Q2_K	42.12GB	false	非常に低品質ですが、意外と使用可能です。
Agatha-111B-v1-IQ2_M.gguf	IQ2_M	38.39GB	false	比較的低品質ですが、最先端の技術を使用しているため、意外と使用可能です。
Agatha-111B-v1-IQ2_S.gguf	IQ2_S	35.46GB	false	低品質ですが、最先端の技術を使用しているため、使用可能です。
Agatha-111B-v1-IQ2_XS.gguf	IQ2_XS	33.73GB	false	低品質ですが、最先端の技術を使用しているため、使用可能です。
Agatha-111B-v1-IQ2_XXS.gguf	IQ2_XXS	30.50GB	false	非常に低品質ですが、最先端の技術を使用しているため、使用可能です。
Agatha-111B-v1-IQ1_M.gguf	IQ1_M	26.83GB	false	非常に低品質で、推奨されません。

埋め込み/出力の重み

一部の量子化モデル（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法で、埋め込みと出力の重みが通常のデフォルトではなくQ8_0に量子化されています。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みをメモリ内でインターリーブすることで、ARMおよびAVXマシンでのパフォーマンスを向上させていました。

しかし、現在では、重みの「オンライン再パッキング」と呼ばれる機能があります。詳細はこのPRを参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的に実行されます。

llama.cppビルドb4282以降、Q4_0_X_Xファイルを実行することはできなくなり、代わりにQ4_0を使用する必要があります。

さらに、このPRにより、IQ4_NLを使用することで、少し高い品質を得ることができます。これは、ARM用に重みを再パッキングすることもできますが、現在は4_4のみです。読み込み時間は長くなる可能性がありますが、全体的な速度が向上します。

どのファイルを選べばいいですか？

様々なパフォーマンスを示すチャート付きの素晴らしい記事が、Artefact2によってここに提供されています。

まず、実行できるモデルのサイズを把握する必要があります。これには、利用可能なRAMおよび/またはVRAMの量を調べる必要があります。

モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることを目指します。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化モデルを選択してください。

最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化モデルを選択してください。

次に、「I-量子化」または「K-量子化」を使用するかを決定する必要があります。

あまり考えたくない場合は、K-量子化のいずれかを選択してください。これらは「QX_K_X」形式で、Q5_K_Mのようなものです。

もっと詳細に調べたい場合は、この非常に便利な機能チャートを確認することができます。

llama.cpp feature matrix

基本的に、Q4以下を目指し、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-量子化を検討する必要があります。これらはIQX_X形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI-量子化はCPUでも使用できますが、同等のK-量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。

🔧 技術詳細

Q4_0_X_X情報（非推奨）

このセクションは、オンライン再パッキングを使用したQ4_0の潜在的な理論的なパフォーマンス向上を示すために残しています。

AVX2システム（EPYC7702）でのベンチマーク

モデル	サイズ	パラメータ	バックエンド	スレッド	テスト	t/s	% (vs Q4_0)
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%