モデル概要
モデル特徴
モデル能力
使用事例
🚀 Aion-RP-Llama-3.1-8BのLlamacpp imatrix量子化
このプロジェクトは、Aion-RP-Llama-3.1-8Bモデルを量子化するためのものです。量子化にはllama.cppを使用しており、特定のバージョンとデータセットを用いて最適な量子化モデルを生成しています。
属性 | 详情 |
---|---|
量子化担当者 | bartowski |
パイプラインタグ | テキスト生成 |
ベースモデル | aion-labs/Aion-RP-Llama-3.1-8B |
ライセンス | apache-2.0 |
🚀 クイックスタート
llama.cpp のリリース b4273 を使用して量子化を行っています。 元のモデルは こちら です。 すべての量子化モデルは、ここ のデータセットを用いてimatrixオプションで作成されています。 これらのモデルは LM Studio で実行できます。
✨ 主な機能
プロンプトフォーマット
__SYSTEM__: {システムプロンプト}
__USER__: {プロンプト}
__ASSISTANT__:
ファイルのダウンロード
以下のリストからファイル(ブランチ全体ではなく)をダウンロードできます。
ファイル名 | 量子化タイプ | ファイルサイズ | 分割 | 説明 |
---|---|---|---|---|
Aion-RP-Llama-3.1-8B-f16.gguf | f16 | 16.07GB | false | 完全なF16ウェイト。 |
Aion-RP-Llama-3.1-8B-Q8_0.gguf | Q8_0 | 8.54GB | false | 非常に高品質で、一般的には必要ないが、利用可能な最大の量子化。 |
Aion-RP-Llama-3.1-8B-Q6_K_L.gguf | Q6_K_L | 6.85GB | false | 埋め込みと出力ウェイトにQ8_0を使用。非常に高品質で、ほぼ完璧で、おすすめ。 |
Aion-RP-Llama-3.1-8B-Q6_K.gguf | Q6_K | 6.60GB | false | 非常に高品質で、ほぼ完璧で、おすすめ。 |
Aion-RP-Llama-3.1-8B-Q5_K_L.gguf | Q5_K_L | 6.06GB | false | 埋め込みと出力ウェイトにQ8_0を使用。高品質で、おすすめ。 |
Aion-RP-Llama-3.1-8B-Q5_K_M.gguf | Q5_K_M | 5.73GB | false | 高品質で、おすすめ。 |
Aion-RP-Llama-3.1-8B-Q5_K_S.gguf | Q5_K_S | 5.60GB | false | 高品質で、おすすめ。 |
Aion-RP-Llama-3.1-8B-Q4_K_L.gguf | Q4_K_L | 5.31GB | false | 埋め込みと出力ウェイトにQ8_0を使用。良好な品質で、おすすめ。 |
Aion-RP-Llama-3.1-8B-Q4_K_M.gguf | Q4_K_M | 4.92GB | false | 良好な品質で、ほとんどの使用ケースでのデフォルトサイズ、おすすめ。 |
Aion-RP-Llama-3.1-8B-Q3_K_XL.gguf | Q3_K_XL | 4.78GB | false | 埋め込みと出力ウェイトにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適している。 |
Aion-RP-Llama-3.1-8B-Q4_K_S.gguf | Q4_K_S | 4.69GB | false | 品質が少し低いが、より多くのスペースを節約でき、おすすめ。 |
Aion-RP-Llama-3.1-8B-Q4_0.gguf | Q4_0 | 4.68GB | false | レガシーフォーマットで、ARM CPU推論のためのオンライン再パッキングを提供。 |
Aion-RP-Llama-3.1-8B-IQ4_NL.gguf | IQ4_NL | 4.68GB | false | IQ4_XSに似ているが、少し大きい。ARM CPU推論のためのオンライン再パッキングを提供。 |
Aion-RP-Llama-3.1-8B-Q4_0_8_8.gguf | Q4_0_8_8 | 4.66GB | false | ARMとAVX推論に最適化。ARMには'sve'サポートが必要(詳細は以下を参照)。Macでは使用しないでください。 |
Aion-RP-Llama-3.1-8B-Q4_0_4_8.gguf | Q4_0_4_8 | 4.66GB | false | ARM推論に最適化。'i8mm'サポートが必要(詳細は以下を参照)。Macでは使用しないでください。 |
Aion-RP-Llama-3.1-8B-Q4_0_4_4.gguf | Q4_0_4_4 | 4.66GB | false | ARM推論に最適化。すべてのARMチップでうまく動作するはずで、GPUでの使用はできません。Macでは使用しないでください。 |
Aion-RP-Llama-3.1-8B-IQ4_XS.gguf | IQ4_XS | 4.45GB | false | 適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスを持ち、おすすめ。 |
Aion-RP-Llama-3.1-8B-Q3_K_L.gguf | Q3_K_L | 4.32GB | false | 品質は低いが使用可能で、低RAM環境に適している。 |
Aion-RP-Llama-3.1-8B-Q3_K_M.gguf | Q3_K_M | 4.02GB | false | 低品質。 |
Aion-RP-Llama-3.1-8B-IQ3_M.gguf | IQ3_M | 3.78GB | false | 中低品質で、Q3_K_Mに匹敵するパフォーマンスを持つ新しい方法。 |
Aion-RP-Llama-3.1-8B-Q2_K_L.gguf | Q2_K_L | 3.69GB | false | 埋め込みと出力ウェイトにQ8_0を使用。非常に低品質だが、意外と使用可能。 |
Aion-RP-Llama-3.1-8B-Q3_K_S.gguf | Q3_K_S | 3.66GB | false | 低品質で、おすすめしません。 |
Aion-RP-Llama-3.1-8B-IQ3_XS.gguf | IQ3_XS | 3.52GB | false | 低品質で、パフォーマンスが適度な新しい方法で、Q3_K_Sよりも少し良い。 |
Aion-RP-Llama-3.1-8B-Q2_K.gguf | Q2_K | 3.18GB | false | 非常に低品質だが、意外と使用可能。 |
Aion-RP-Llama-3.1-8B-IQ2_M.gguf | IQ2_M | 2.95GB | false | 比較的低品質で、SOTA技術を使用して意外と使用可能。 |
埋め込み/出力ウェイト
一部の量子化モデル(Q3_K_XL、Q4_K_Lなど)は、標準的な量子化方法を使用しており、埋め込みと出力ウェイトは通常のデフォルト値ではなくQ8_0に量子化されています。
📦 インストール
huggingface-cliを使用したダウンロード
ダウンロード手順を表示するにはクリック
まず、hugginface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードしたい特定のファイルを指定できます。
huggingface-cli download bartowski/Aion-RP-Llama-3.1-8B-GGUF --include "Aion-RP-Llama-3.1-8B-Q4_K_M.gguf" --local-dir ./
モデルが50GBを超える場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。
huggingface-cli download bartowski/Aion-RP-Llama-3.1-8B-GGUF --include "Aion-RP-Llama-3.1-8B-Q8_0/*" --local-dir ./
新しいローカルディレクトリ(Aion-RP-Llama-3.1-8B-Q8_0)を指定するか、すべてをそのままダウンロードすることができます(./)。
📚 ドキュメント
Q4_0_X_X情報
新機能:このPR で行われたウェイトのオンライン再パッキングの努力により、llama.cppがARMデバイス用にコンパイルされている場合、Q4_0を使用することができます。
同様に、少しパフォーマンスを向上させたい場合は、このPR により、IQ4_NLを使用することができます。これもARM用にウェイトを再パッキングしますが、現時点では4_4のみです。ロード時間は遅くなる可能性がありますが、全体的な速度が向上します。
Q4_0_X_X情報を表示するにはクリック
これらは、Metal(Apple)またはGPU(nvidia/AMD/intel)のオフロードには使用できず、ARMチップ(および特定のAVX2/AVX512 CPU)のみに対応しています。ARMチップを使用している場合、Q4_0_X_X量子化モデルは大幅な速度向上が見られます。Q4_0_4_4の速度比較は 元のプルリクエスト で確認できます。
自分のARMチップで最適なものを確認するには、AArch64 SoC機能 を確認できます(EloyOn!に感謝)。
AVX2またはAVX512をサポートするCPU(通常はサーバーCPUおよびAMDの最新のZen5 CPU)を使用しており、GPUにオフロードしない場合、Q4_0_8_8も良好な速度を提供する可能性があります。
AVX2システム(EPYC7702)でのベンチマークを表示するにはクリック
モデル | サイズ | パラメータ | バックエンド | スレッド | テスト | トークン/秒 | % (Q4_0との比較) |
---|---|---|---|---|---|---|---|
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8は、プロンプト処理に大きな改善をもたらし、テキスト生成にも小さな改善をもたらします。
どのファイルを選べばいいですか?
詳細を表示するにはここをクリック
様々なパフォーマンスを示すチャート付きの素晴らしい記事がArtefact2によって ここ で提供されています。
まず、実行できるモデルのサイズを把握する必要があります。これには、自分が持っているRAMおよび/またはVRAMの量を把握する必要があります。
モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることを目指してください。GPUの総VRAMよりも1-2GB小さいファイルサイズの量子化モデルを選びましょう。
最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、同様にその合計よりも1-2GB小さいファイルサイズの量子化モデルを選びましょう。
次に、'I-quant'または'K-quant'を使用するかを決める必要があります。
あまり深く考えたくない場合は、K-quantのいずれかを選んでください。これらは'QX_K_X'の形式で、Q5_K_Mのようなものです。
もっと詳細に調べたい場合は、この非常に便利な機能チャートを確認できます。
基本的に、Q4以下を目指しており、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI-quantは、CPUおよびApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決める必要があります。
I-quantはVulcan(AMD)と互換性がないため、AMDカードを持っている場合は、rocBLASビルドまたはVulcanビルドを使用しているかを再度確認してください。この記事を書いている時点で、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。
🔧 技術詳細
クレジット
imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。 埋め込み/出力の実験のインスピレーションをくれたZeroWwに感謝します。
私の仕事をサポートしたい場合は、こちらのko-fiページを訪れてください。: https://ko-fi.com/bartowski
📄 ライセンス
このプロジェクトは、Apache 2.0ライセンスの下で提供されています。



