モデル概要
モデル特徴
モデル能力
使用事例
🚀 MenloによるJan - nanoのLlamacpp imatrix量子化
このプロジェクトは、MenloのJan - nanoモデルを量子化したものです。量子化にはllama.cppを使用しており、特定のバージョンとデータセットを利用しています。また、モデルの実行方法やダウンロード方法、各量子化ファイルの詳細についても説明しています。
🚀 クイックスタート
- 量子化には、llama.cppのリリース版 b5627 を使用しています。
- オリジナルモデルは、[こちら](https://huggingface.co/Menlo/Jan - nano) です。
- すべての量子化ファイルは、ここ のデータセットを使用し、imatrixオプションで作成されています。
- モデルは LM Studio で実行できます。
- また、llama.cpp または他のllama.cppベースのプロジェクトで直接実行することもできます。
✨ 主な機能
プロンプトフォーマット
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
<think>
</think>
ファイルダウンロード
以下の表から、必要なファイルを選択してダウンロードできます。
ファイル名 | 量子化タイプ | ファイルサイズ | 分割 | 説明 |
---|---|---|---|---|
[Jan - nano - bf16.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - bf16.gguf) | bf16 | 8.05GB | false | 完全なBF16ウェイト。 |
[Jan - nano - Q8_0.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q8_0.gguf) | Q8_0 | 4.28GB | false | 非常に高品質で、一般的には必要ないが、利用可能な最大の量子化。 |
[Jan - nano - Q6_K_L.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q6_K_L.gguf) | Q6_K_L | 3.40GB | false | 埋め込みと出力ウェイトにQ8_0を使用。非常に高品質で、ほぼ完璧で、おすすめ。 |
[Jan - nano - Q6_K.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q6_K.gguf) | Q6_K | 3.31GB | false | 非常に高品質で、ほぼ完璧で、おすすめ。 |
[Jan - nano - Q5_K_L.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q5_K_L.gguf) | Q5_K_L | 2.98GB | false | 埋め込みと出力ウェイトにQ8_0を使用。高品質で、おすすめ。 |
[Jan - nano - Q5_K_M.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q5_K_M.gguf) | Q5_K_M | 2.89GB | false | 高品質で、おすすめ。 |
[Jan - nano - Q5_K_S.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q5_K_S.gguf) | Q5_K_S | 2.82GB | false | 高品質で、おすすめ。 |
[Jan - nano - Q4_1.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q4_1.gguf) | Q4_1 | 2.60GB | false | レガシーフォーマット。Q4_K_Sと同様のパフォーマンスが得られ、Apple Siliconではトークン/ワットが改善されます。 |
[Jan - nano - Q4_K_L.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q4_K_L.gguf) | Q4_K_L | 2.59GB | false | 埋め込みと出力ウェイトにQ8_0を使用。良好な品質で、おすすめ。 |
[Jan - nano - Q4_K_M.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q4_K_M.gguf) | Q4_K_M | 2.50GB | false | 良好な品質で、ほとんどのユースケースでのデフォルトサイズ、おすすめ。 |
[Jan - nano - Q4_K_S.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q4_K_S.gguf) | Q4_K_S | 2.38GB | false | 品質がわずかに低いが、より多くのスペースを節約でき、おすすめ。 |
[Jan - nano - Q4_0.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q4_0.gguf) | Q4_0 | 2.38GB | false | レガシーフォーマット。ARMとAVX CPU推論用のオンライン再パッキングを提供します。 |
[Jan - nano - IQ4_NL.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - IQ4_NL.gguf) | IQ4_NL | 2.38GB | false | IQ4_XSに似ていますが、少し大きい。ARM CPU推論用のオンライン再パッキングを提供します。 |
[Jan - nano - Q3_K_XL.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q3_K_XL.gguf) | Q3_K_XL | 2.33GB | false | 埋め込みと出力ウェイトにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。 |
[Jan - nano - IQ4_XS.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - IQ4_XS.gguf) | IQ4_XS | 2.27GB | false | 適度な品質で、Q4_K_Sより小さく、同様のパフォーマンスが得られ、おすすめ。 |
[Jan - nano - Q3_K_L.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q3_K_L.gguf) | Q3_K_L | 2.24GB | false | 品質は低いが使用可能で、低RAM環境に適しています。 |
[Jan - nano - Q3_K_M.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q3_K_M.gguf) | Q3_K_M | 2.08GB | false | 低品質。 |
[Jan - nano - IQ3_M.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - IQ3_M.gguf) | IQ3_M | 1.96GB | false | 中低品質。Q3_K_Mと同等のパフォーマンスを持つ新しい方法。 |
[Jan - nano - Q3_K_S.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q3_K_S.gguf) | Q3_K_S | 1.89GB | false | 低品質で、おすすめしません。 |
[Jan - nano - IQ3_XS.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - IQ3_XS.gguf) | IQ3_XS | 1.81GB | false | 品質は低いが、適度なパフォーマンスを持つ新しい方法。Q3_K_Sより少し良い。 |
[Jan - nano - Q2_K_L.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q2_K_L.gguf) | Q2_K_L | 1.76GB | false | 埋め込みと出力ウェイトにQ8_0を使用。非常に低品質ですが、意外と使用可能です。 |
[Jan - nano - IQ3_XXS.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - IQ3_XXS.gguf) | IQ3_XXS | 1.67GB | false | 品質は低いが、適度なパフォーマンスを持つ新しい方法。Q3量子化と同等。 |
[Jan - nano - Q2_K.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - Q2_K.gguf) | Q2_K | 1.67GB | false | 非常に低品質ですが、意外と使用可能です。 |
[Jan - nano - IQ2_M.gguf](https://huggingface.co/bartowski/Menlo_Jan - nano - GGUF/blob/main/Menlo_Jan - nano - IQ2_M.gguf) | IQ2_M | 1.51GB | false | 比較的低品質ですが、SOTA技術を使用しているため、意外と使用可能です。 |
埋め込み/出力ウェイト
一部の量子化ファイル(Q3_K_XL、Q4_K_Lなど)は、標準的な量子化方法を使用していますが、埋め込みと出力ウェイトは通常のデフォルト値ではなく、Q8_0に量子化されています。
📦 インストール
huggingface - cliを使用したダウンロード
ダウンロード手順を表示するにはクリック
まず、hugginface - cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードしたい特定のファイルを指定できます。
huggingface-cli download bartowski/Menlo_Jan - nano - GGUF --include "Menlo_Jan - nano - Q4_K_M.gguf" --local-dir ./
モデルが50GBを超える場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下のコマンドを実行します。
huggingface-cli download bartowski/Menlo_Jan - nano - GGUF --include "Menlo_Jan - nano - Q8_0/*" --local-dir ./
新しいローカルディレクトリ(Menlo_Jan - nano - Q8_0)を指定するか、すべてをその場所にダウンロードすることができます(./)。
🔧 技術詳細
ARM/AVX情報
以前は、Q4_0_4_4/4_8/8_8をダウンロードし、ARMおよびAVXマシンでのパフォーマンスを向上させるために、ウェイトをメモリ内でインターリーブしていました。
しかし、現在はウェイトの「オンライン再パッキング」と呼ばれる機能があります。詳細は このPR を参照してください。Q4_0を使用し、ハードウェアがウェイトの再パッキングによって恩恵を受ける場合、自動的に実行されます。
llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできなくなり、代わりにQ4_0を使用する必要があります。
さらに、このPR により、IQ4_NLを使用すると、ARM用にウェイトを再パッキングすることができます(現在は4_4のみ)。ロード時間が遅くなる可能性がありますが、全体的な速度が向上します。
Q4_0_X_X情報を表示するにはクリック(非推奨)
このセクションは、オンライン再パッキングを使用したQ4_0の潜在的な理論上のパフォーマンス向上を示すために残しています。
AVX2システム(EPYC7702)でのベンチマークを表示するにはクリック
モデル | サイズ | パラメータ | バックエンド | スレッド | テスト | t/s | Q4_0との比率 |
---|---|---|---|---|---|---|---|
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8は、プロンプト処理に大きな向上、テキスト生成に小さな向上をもたらします。
どのファイルを選ぶべきか?
詳細を表示するにはクリック
様々なパフォーマンスを示すチャート付きの素晴らしい記事が、Artefact2によって ここ に提供されています。
まず、実行できるモデルのサイズを判断する必要があります。これには、システムのRAMとGPUのVRAMの容量を把握する必要があります。
できるだけ高速にモデルを実行したい場合は、モデル全体をGPUのVRAMに収めることを目指してください。GPUの総VRAMより1 - 2GB小さいファイルサイズの量子化ファイルを選択します。
最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計より1 - 2GB小さいファイルサイズの量子化ファイルを選択します。
次に、「I - 量子化」または「K - 量子化」を使用するかを決定する必要があります。
あまり考えずに済ませたい場合は、K - 量子化のいずれかを選択してください。これらは 'QX_K_X' 形式で、Q5_K_Mのようなものです。
もっと詳細を知りたい場合は、この非常に便利な機能チャートを確認することができます。
[llama.cpp機能マトリックス](https://github.com/ggerganov/llama.cpp/wiki/Feature - matrix)
基本的に、Q4以下を目指しており、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I - 量子化を検討する必要があります。これらはIQX_X形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI - 量子化はCPUでも使用できますが、同等のK - 量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。
📄 ライセンス
このプロジェクトは、Apache 2.0ライセンスの下で提供されています。
クレジット
- kalomazeとDampfには、imatrixキャリブレーションデータセットの作成に協力してくれたことに感謝します。
- ZeroWwには、埋め込み/出力の実験のインスピレーションを与えてくれたことに感謝します。
- LM Studioには、私の仕事を支援してくれたことに感謝します。
私の仕事を支援したい場合は、こちら のko - fiページを訪れてください。



