EXAONE-3.5-32B-Instruct-GGUFオープンソース大規模モデル - 無料でデプロイ可能、指令追従と対話をサポート

ホーム

EXAONE 3.5 32B Instruct GGUF

bartowskiによって開発

EXAONE-3.5-32B-Instructは32Bパラメータの大型言語モデルで、指令追従と対話タスクをサポートします。

大規模言語モデル複数言語対応オープンソースライセンス:その他 #高精度量子化 #多シナリオ指令 #大規模モデル推論

ダウンロード数 616

リリース時間 : 12/9/2024

モデル概要

このモデルは32Bパラメータの大型言語モデルで、指令追従と対話タスクをサポートするように最適化されており、様々な自然言語処理シナリオに適用できます。

モデル特徴

高品質量子化

llama.cppのimatrixオプションを使用して量子化を行い、量子化の正確性と安定性を確保します。

複数の量子化タイプ

様々な量子化タイプを提供し、異なるパフォーマンスと品質の要件を満たします。

LM Studioサポート

LM Studioでの実行をサポートし、ユーザーがモデルのテストと使用を容易に行えます。

モデル能力

テキスト生成

指令追従

対話生成

使用事例

自然言語処理

対話システム

スマート対話システムの構築に使用し、多輪対話と指令理解をサポートします。

テキスト生成

高品質の自然言語テキストを生成し、コンテンツ作成や自動執筆に適しています。

🚀 EXAONE-3.5-32B-InstructのLlamacpp imatrix量子化

EXAONE-3.5-32B-Instructの量子化モデルに関する情報です。この量子化には、llama.cppのリリース b4273 を使用しています。

🚀 クイックスタート

元のモデル: LGAI-EXAONE/EXAONE-3.5-32B-Instruct
すべての量子化モデルは、こちらのデータセットを使用して、imatrixオプションで作成されています。
これらのモデルは LM Studio で実行できます。

✨ 主な機能

様々な量子化タイプのモデルを提供し、ユーザーのハードウェア環境に合わせて選択できます。
一部の量子化モデルは、埋め込みと出力の重みをQ8_0に量子化しており、品質が向上しています。

📦 インストール

huggingface-cliを使用したダウンロード

まず、huggingface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードしたい特定のファイルを指定できます。

huggingface-cli download bartowski/EXAONE-3.5-32B-Instruct-GGUF --include "EXAONE-3.5-32B-Instruct-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/EXAONE-3.5-32B-Instruct-GGUF --include "EXAONE-3.5-32B-Instruct-Q8_0/*" --local-dir ./

新しいローカルディレクトリを指定するか、現在のディレクトリ (./) にダウンロードすることができます。

💻 使用例

プロンプトフォーマット

[|system|]{system_prompt}[|endofturn|]
[|user|]{prompt}
[|assistant|]

ダウンロード可能なファイル一覧

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
EXAONE-3.5-32B-Instruct-f16.gguf	f16	64.01GB	true	完全なF16重み。
EXAONE-3.5-32B-Instruct-Q8_0.gguf	Q8_0	34.01GB	false	非常に高品質で、通常は必要ありませんが、利用可能な最大の量子化。
EXAONE-3.5-32B-Instruct-Q6_K_L.gguf	Q6_K_L	26.51GB	false	埋め込みと出力の重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、推奨。
EXAONE-3.5-32B-Instruct-Q6_K.gguf	Q6_K	26.26GB	false	非常に高品質で、ほぼ完璧で、推奨。
EXAONE-3.5-32B-Instruct-Q5_K_L.gguf	Q5_K_L	23.02GB	false	埋め込みと出力の重みにQ8_0を使用。高品質で、推奨。
EXAONE-3.5-32B-Instruct-Q5_K_M.gguf	Q5_K_M	22.70GB	false	高品質で、推奨。
EXAONE-3.5-32B-Instruct-Q5_K_S.gguf	Q5_K_S	22.08GB	false	高品質で、推奨。
EXAONE-3.5-32B-Instruct-Q4_K_L.gguf	Q4_K_L	19.73GB	false	埋め込みと出力の重みにQ8_0を使用。良好な品質で、推奨。
EXAONE-3.5-32B-Instruct-Q4_K_M.gguf	Q4_K_M	19.34GB	false	良好な品質で、ほとんどのユースケースでのデフォルトサイズ、推奨。
EXAONE-3.5-32B-Instruct-Q4_K_S.gguf	Q4_K_S	18.29GB	false	品質がやや低いが、より多くのスペースを節約できる、推奨。
EXAONE-3.5-32B-Instruct-Q4_0.gguf	Q4_0	18.21GB	false	レガシーフォーマットで、ARM CPU推論用のオンライン再パッキングを提供。
EXAONE-3.5-32B-Instruct-IQ4_NL.gguf	IQ4_NL	18.19GB	false	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論用のオンライン再パッキングを提供。
EXAONE-3.5-32B-Instruct-Q4_0_8_8.gguf	Q4_0_8_8	18.14GB	false	ARMとAVX推論用に最適化されています。ARMには 'sve' サポートが必要です (詳細は以下を参照)。Macでは使用しないでください。
EXAONE-3.5-32B-Instruct-Q4_0_4_8.gguf	Q4_0_4_8	18.14GB	false	ARM推論用に最適化されています。 'i8mm' サポートが必要です (詳細は以下を参照)。Macでは使用しないでください。
EXAONE-3.5-32B-Instruct-Q4_0_4_4.gguf	Q4_0_4_4	18.14GB	false	ARM推論用に最適化されています。すべてのARMチップでうまく動作するはずですが、GPUでは使用できません。Macでは使用しないでください。
EXAONE-3.5-32B-Instruct-Q3_K_XL.gguf	Q3_K_XL	17.25GB	false	埋め込みと出力の重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。
EXAONE-3.5-32B-Instruct-IQ4_XS.gguf	IQ4_XS	17.21GB	false	適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスを持ち、推奨。
EXAONE-3.5-32B-Instruct-Q3_K_L.gguf	Q3_K_L	16.80GB	false	品質は低いが使用可能で、低RAM環境に適しています。
EXAONE-3.5-32B-Instruct-Q3_K_M.gguf	Q3_K_M	15.49GB	false	低品質。
EXAONE-3.5-32B-Instruct-IQ3_M.gguf	IQ3_M	14.38GB	false	中程度の低品質で、Q3_K_Mに匹敵するパフォーマンスを持つ新しい方法。
EXAONE-3.5-32B-Instruct-Q3_K_S.gguf	Q3_K_S	13.96GB	false	低品質で、推奨しません。
EXAONE-3.5-32B-Instruct-IQ3_XS.gguf	IQ3_XS	13.28GB	false	品質は低いが、適度なパフォーマンスを持つ新しい方法で、Q3_K_Sよりも少し良い。
EXAONE-3.5-32B-Instruct-Q2_K_L.gguf	Q2_K_L	12.44GB	false	埋め込みと出力の重みにQ8_0を使用。非常に低品質ですが、意外と使用可能です。
EXAONE-3.5-32B-Instruct-Q2_K.gguf	Q2_K	11.93GB	false	非常に低品質ですが、意外と使用可能です。
EXAONE-3.5-32B-Instruct-IQ2_M.gguf	IQ2_M	10.90GB	false	比較的低品質ですが、最先端の技術を使用して意外と使用可能です。
EXAONE-3.5-32B-Instruct-IQ2_S.gguf	IQ2_S	10.03GB	false	低品質ですが、最先端の技術を使用して使用可能です。
EXAONE-3.5-32B-Instruct-IQ2_XS.gguf	IQ2_XS	9.62GB	false	低品質ですが、最先端の技術を使用して使用可能です。
EXAONE-3.5-32B-Instruct-IQ2_XXS.gguf	IQ2_XXS	8.70GB	false	非常に低品質ですが、最先端の技術を使用して使用可能です。

📚 ドキュメント

埋め込み/出力の重み

一部の量子化モデル (Q3_K_XL、Q4_K_Lなど) は、標準的な量子化方法で、埋め込みと出力の重みが通常のデフォルト値ではなく、Q8_0に量子化されています。

Q4_0_X_Xに関する情報

新機能: このPR で行われた重みのオンライン再パッキングの努力により、llama.cppがARMデバイス用にコンパイルされている場合、Q4_0を使用できるようになりました。同様に、少しパフォーマンスを向上させたい場合は、このPR により、ARM用に重みを再パッキングするIQ4_NLを使用できます (現時点では4_4のみ)。読み込み時間は遅くなる可能性がありますが、全体的な速度が向上します。

Q4_0_X_Xの情報を表示するにはクリックしてください

これらは、Metal (Apple) またはGPU (nvidia/AMD/intel) のオフロードには使用できません。ARMチップ (および特定のAVX2/AVX512 CPU) のみに対応しています。 ARMチップを使用している場合、Q4_0_X_X量子化は大幅な速度向上をもたらします。Q4_0_4_4の速度比較は、[元のプルリクエスト](https://github.com/ggerganov/llama.cpp/pull/5780#pullrequestreview-21657544660) を参照してください。どの量子化があなたのARMチップで最適かを確認するには、[AArch64 SoC機能](https://gpages.juszkiewicz.com.pl/arm-socs-table/arm-socs.html) を確認できます (EloyOnに感謝！)。 AVX2またはAVX512をサポートするCPU (通常はサーバーCPUとAMDの最新のZen5 CPU) を使用しており、GPUにオフロードしていない場合、Q4_0_8_8も良好な速度を提供する可能性があります。

AVX2システム (EPYC7702) のベンチマークを表示するにはクリックしてください

モデル	サイズ	パラメータ	バックエンド	スレッド	テスト	t/s	% (vs Q4_0)
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%

Q4_0_8_8は、プロンプト処理に大幅な向上をもたらし、テキスト生成にも若干の向上をもたらします。

どのファイルを選べばいいですか？

詳細はここをクリック

様々なパフォーマンスを示すグラフ付きの素晴らしい解説記事が、Artefact2によって [こちら](https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9) で提供されています。まず、実行できるモデルのサイズを把握する必要があります。これには、あなたが持っているRAMおよび/またはVRAMの量を把握する必要があります。モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収める必要があります。GPUの総VRAMよりも1-2GB小さいファイルサイズの量子化を選択してください。最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、同様にその合計よりも1-2GB小さいファイルサイズの量子化を選択してください。次に、'I-quant' または 'K-quant' を使用するかを決定する必要があります。あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは 'QX_K_X' 形式で、Q5_K_Mのようになります。もっと詳細に調べたい場合は、この非常に便利な機能チャートを確認できます。 [llama.cpp機能マトリックス](https://github.com/ggerganov/llama.cpp/wiki/Feature-matrix) 基本的に、Q4以下を目指しており、cuBLAS (Nvidia) またはrocBLAS (AMD) を使用している場合は、I-quantを検討する必要があります。これらはIQX_X形式で、IQ3_Mのようになります。これらは新しく、サイズに対してより良いパフォーマンスを提供します。これらのI-quantは、CPUとApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。 I-quantはVulcanと互換性がありません。VulcanもAMDのものです。したがって、AMDカードを使用している場合は、rocBLASビルドまたはVulcanビルドを使用しているかを確認してください。この記事を書いている時点では、LM StudioにはROCmサポートのプレビュー版があり、他の推論エンジンにはROCm用の特定のビルドがあります。