Aion-RP-Llama-3.1-8B-GGUFオープンソースモデル - 複数の量子化が異なるハードウェア要件に適合

ホーム

Aion RP Llama 3.1 8B GGUF

bartowskiによって開発

Aion-RP-Llama-3.1-8BのLlamacpp imatrix量化バージョンで、さまざまなハードウェア要件に対応するための複数の量化オプションを提供します。

大規模言語モデルオープンソースライセンス:Apache-2.0 #多量化バージョン #高効率推論 #ARM最適化

ダウンロード数 159

リリース時間 : 12/6/2024

モデル概要

このプロジェクトは、Aion-RP-Llama-3.1-8Bモデルの量化バージョンを提供し、llama.cppを使用して量化を行い、複数の量化タイプをサポートし、さまざまなハードウェア条件下での高効率な実行に適しています。

モデル特徴

複数の量化オプション

Q2_KからQ8_0までの複数の量化バージョンを提供し、さまざまなハードウェアとパフォーマンス要件を満たします。

埋め込みと出力重みの特殊処理

一部の量化バージョンでは、埋め込みと出力重みに特殊な処理（例：Q8_0量化）を行い、モデルの品質を向上させます。

ARM最適化

ARMデバイス向けの最適化バージョン（例：Q4_0_X_X）を提供し、ARMチップ上での実行速度を大幅に向上させます。

高効率な実行

量化技術により、モデルはリソースが限られたデバイス上でも高い生成品質を維持しながら高効率に実行できます。

モデル能力

テキスト生成

対話システム

ロールプレイング

使用事例

対話システム

ロールプレイング対話

モデルを使用してロールプレイング対話を行い、キャラクター設定に合った返答を生成します。

キャラクター設定に合った高品質の対話生成。

テキスト生成

クリエイティブライティング

モデルを利用して、物語や詩などのクリエイティブなテキストを生成します。

クリエイティブなテキスト内容の生成。

🚀 Aion-RP-Llama-3.1-8BのLlamacpp imatrix量子化

このプロジェクトは、Aion-RP-Llama-3.1-8Bモデルを量子化するためのものです。量子化にはllama.cppを使用しており、特定のバージョンとデータセットを用いて最適な量子化モデルを生成しています。

属性	详情
量子化担当者	bartowski
パイプラインタグ	テキスト生成
ベースモデル	aion-labs/Aion-RP-Llama-3.1-8B
ライセンス	apache-2.0

🚀 クイックスタート

llama.cpp のリリース b4273 を使用して量子化を行っています。元のモデルはこちらです。すべての量子化モデルは、ここのデータセットを用いてimatrixオプションで作成されています。これらのモデルは LM Studio で実行できます。

✨ 主な機能

プロンプトフォーマット

__SYSTEM__: {システムプロンプト}
__USER__: {プロンプト}
__ASSISTANT__:

ファイルのダウンロード

以下のリストからファイル（ブランチ全体ではなく）をダウンロードできます。

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Aion-RP-Llama-3.1-8B-f16.gguf	f16	16.07GB	false	完全なF16ウェイト。
Aion-RP-Llama-3.1-8B-Q8_0.gguf	Q8_0	8.54GB	false	非常に高品質で、一般的には必要ないが、利用可能な最大の量子化。
Aion-RP-Llama-3.1-8B-Q6_K_L.gguf	Q6_K_L	6.85GB	false	埋め込みと出力ウェイトにQ8_0を使用。非常に高品質で、ほぼ完璧で、おすすめ。
Aion-RP-Llama-3.1-8B-Q6_K.gguf	Q6_K	6.60GB	false	非常に高品質で、ほぼ完璧で、おすすめ。
Aion-RP-Llama-3.1-8B-Q5_K_L.gguf	Q5_K_L	6.06GB	false	埋め込みと出力ウェイトにQ8_0を使用。高品質で、おすすめ。
Aion-RP-Llama-3.1-8B-Q5_K_M.gguf	Q5_K_M	5.73GB	false	高品質で、おすすめ。
Aion-RP-Llama-3.1-8B-Q5_K_S.gguf	Q5_K_S	5.60GB	false	高品質で、おすすめ。
Aion-RP-Llama-3.1-8B-Q4_K_L.gguf	Q4_K_L	5.31GB	false	埋め込みと出力ウェイトにQ8_0を使用。良好な品質で、おすすめ。
Aion-RP-Llama-3.1-8B-Q4_K_M.gguf	Q4_K_M	4.92GB	false	良好な品質で、ほとんどの使用ケースでのデフォルトサイズ、おすすめ。
Aion-RP-Llama-3.1-8B-Q3_K_XL.gguf	Q3_K_XL	4.78GB	false	埋め込みと出力ウェイトにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適している。
Aion-RP-Llama-3.1-8B-Q4_K_S.gguf	Q4_K_S	4.69GB	false	品質が少し低いが、より多くのスペースを節約でき、おすすめ。
Aion-RP-Llama-3.1-8B-Q4_0.gguf	Q4_0	4.68GB	false	レガシーフォーマットで、ARM CPU推論のためのオンライン再パッキングを提供。
Aion-RP-Llama-3.1-8B-IQ4_NL.gguf	IQ4_NL	4.68GB	false	IQ4_XSに似ているが、少し大きい。ARM CPU推論のためのオンライン再パッキングを提供。
Aion-RP-Llama-3.1-8B-Q4_0_8_8.gguf	Q4_0_8_8	4.66GB	false	ARMとAVX推論に最適化。ARMには'sve'サポートが必要（詳細は以下を参照）。Macでは使用しないでください。
Aion-RP-Llama-3.1-8B-Q4_0_4_8.gguf	Q4_0_4_8	4.66GB	false	ARM推論に最適化。'i8mm'サポートが必要（詳細は以下を参照）。Macでは使用しないでください。
Aion-RP-Llama-3.1-8B-Q4_0_4_4.gguf	Q4_0_4_4	4.66GB	false	ARM推論に最適化。すべてのARMチップでうまく動作するはずで、GPUでの使用はできません。Macでは使用しないでください。
Aion-RP-Llama-3.1-8B-IQ4_XS.gguf	IQ4_XS	4.45GB	false	適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスを持ち、おすすめ。
Aion-RP-Llama-3.1-8B-Q3_K_L.gguf	Q3_K_L	4.32GB	false	品質は低いが使用可能で、低RAM環境に適している。
Aion-RP-Llama-3.1-8B-Q3_K_M.gguf	Q3_K_M	4.02GB	false	低品質。
Aion-RP-Llama-3.1-8B-IQ3_M.gguf	IQ3_M	3.78GB	false	中低品質で、Q3_K_Mに匹敵するパフォーマンスを持つ新しい方法。
Aion-RP-Llama-3.1-8B-Q2_K_L.gguf	Q2_K_L	3.69GB	false	埋め込みと出力ウェイトにQ8_0を使用。非常に低品質だが、意外と使用可能。
Aion-RP-Llama-3.1-8B-Q3_K_S.gguf	Q3_K_S	3.66GB	false	低品質で、おすすめしません。
Aion-RP-Llama-3.1-8B-IQ3_XS.gguf	IQ3_XS	3.52GB	false	低品質で、パフォーマンスが適度な新しい方法で、Q3_K_Sよりも少し良い。
Aion-RP-Llama-3.1-8B-Q2_K.gguf	Q2_K	3.18GB	false	非常に低品質だが、意外と使用可能。
Aion-RP-Llama-3.1-8B-IQ2_M.gguf	IQ2_M	2.95GB	false	比較的低品質で、SOTA技術を使用して意外と使用可能。

埋め込み/出力ウェイト

一部の量子化モデル（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法を使用しており、埋め込みと出力ウェイトは通常のデフォルト値ではなくQ8_0に量子化されています。

📦 インストール

huggingface-cliを使用したダウンロード

ダウンロード手順を表示するにはクリック

まず、hugginface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードしたい特定のファイルを指定できます。

huggingface-cli download bartowski/Aion-RP-Llama-3.1-8B-GGUF --include "Aion-RP-Llama-3.1-8B-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。

huggingface-cli download bartowski/Aion-RP-Llama-3.1-8B-GGUF --include "Aion-RP-Llama-3.1-8B-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（Aion-RP-Llama-3.1-8B-Q8_0）を指定するか、すべてをそのままダウンロードすることができます（./）。

📚 ドキュメント

Q4_0_X_X情報

新機能：このPR で行われたウェイトのオンライン再パッキングの努力により、llama.cppがARMデバイス用にコンパイルされている場合、Q4_0を使用することができます。

同様に、少しパフォーマンスを向上させたい場合は、このPR により、IQ4_NLを使用することができます。これもARM用にウェイトを再パッキングしますが、現時点では4_4のみです。ロード時間は遅くなる可能性がありますが、全体的な速度が向上します。

Q4_0_X_X情報を表示するにはクリック

これらは、Metal（Apple）またはGPU（nvidia/AMD/intel）のオフロードには使用できず、ARMチップ（および特定のAVX2/AVX512 CPU）のみに対応しています。

ARMチップを使用している場合、Q4_0_X_X量子化モデルは大幅な速度向上が見られます。Q4_0_4_4の速度比較は元のプルリクエストで確認できます。

自分のARMチップで最適なものを確認するには、AArch64 SoC機能を確認できます（EloyOn！に感謝）。

AVX2またはAVX512をサポートするCPU（通常はサーバーCPUおよびAMDの最新のZen5 CPU）を使用しており、GPUにオフロードしない場合、Q4_0_8_8も良好な速度を提供する可能性があります。

AVX2システム（EPYC7702）でのベンチマークを表示するにはクリック

モデル	サイズ	パラメータ	バックエンド	スレッド	テスト	トークン/秒	% (Q4_0との比較)
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%

Q4_0_8_8は、プロンプト処理に大きな改善をもたらし、テキスト生成にも小さな改善をもたらします。

どのファイルを選べばいいですか？

詳細を表示するにはここをクリック

様々なパフォーマンスを示すチャート付きの素晴らしい記事がArtefact2によってここで提供されています。

まず、実行できるモデルのサイズを把握する必要があります。これには、自分が持っているRAMおよび/またはVRAMの量を把握する必要があります。

モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることを目指してください。GPUの総VRAMよりも1-2GB小さいファイルサイズの量子化モデルを選びましょう。

最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、同様にその合計よりも1-2GB小さいファイルサイズの量子化モデルを選びましょう。

次に、'I-quant'または'K-quant'を使用するかを決める必要があります。

あまり深く考えたくない場合は、K-quantのいずれかを選んでください。これらは'QX_K_X'の形式で、Q5_K_Mのようなものです。

もっと詳細に調べたい場合は、この非常に便利な機能チャートを確認できます。

llama.cpp機能マトリックス

基本的に、Q4以下を目指しており、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI-quantは、CPUおよびApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決める必要があります。

I-quantはVulcan（AMD）と互換性がないため、AMDカードを持っている場合は、rocBLASビルドまたはVulcanビルドを使用しているかを再度確認してください。この記事を書いている時点で、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。