Menlo_Lucy-GGUFオープンソース大規模言語モデル - 量子化処理でリソースを節約し、効率的な動作でより実用的

ホーム

Menlo Lucy GGUF

bartowskiによって開発

LucyモデルはMenlo社が開発した大規模言語モデルで、量子化処理を施すことで性能を維持しながらリソースの必要量を削減し、実行効率を向上させることができます。

大規模言語モデル #高効率量子化 #低メモリ最適化 #多プラットフォーム互換性

ダウンロード数 674

リリース時間 : 7/18/2025

モデル概要

このプロジェクトはMenlo社のLucyモデルに量子化処理を施すもので、量子化技術を利用してモデルの保存と計算リソースの必要量を効果的に削減し、モデルの実行効率を向上させます。

モデル特徴

高効率量子化

llama.cppを使用して量子化処理を行い、モデルの保存と計算リソースの必要量を効果的に削減します。

複数の量子化オプション

Q2からQ8までの複数の量子化レベルを提供し、さまざまな性能とリソース要件を満たします。

オンライン再パッケージ化

一部の量子化ファイルはオンラインで再パッケージ化がサポートされており、ARMおよびAVXマシンでの性能を向上させます。

高品質推奨

Q6_K_L、Q5_K_Mなど、複数の高品質量子化バージョンを推奨します。

モデル能力

テキスト生成

対話システム

コンテンツ作成

使用事例

対話システム

スマートアシスタント

自然でスムーズな対話体験を提供するスマート対話アシスタントの構築に使用できます。

コンテンツ生成

テキスト創作

記事、物語など、さまざまなタイプのテキストコンテンツの生成に使用できます。

🚀 MenloによるLucyのLlamacpp imatrix量子化

このプロジェクトは、llama.cppのリリース b5924 を使用して、MenloによるLucyモデルの量子化を行っています。量子化には、ここからのデータセットを用いて、imatrixオプションを使用しています。

元のモデル: https://huggingface.co/Menlo/Lucy
実行環境: LM Studio で実行することができます。また、llama.cpp や他のllama.cppベースのプロジェクトで直接実行することも可能です。

🚀 クイックスタート

プロンプトフォーマット

チャットテンプレートは指定されていないため、デフォルトが使用されます。これが正しくない場合があるので、詳細は元のモデルカードを確認してください。

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

ファイルのダウンロード

以下の表から特定のファイルを選択してダウンロードできます。

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Lucy-bf16.gguf	bf16	3.45GB	false	完全なBF16重み。
Lucy-Q8_0.gguf	Q8_0	1.83GB	false	非常に高品質で、一般的には必要ないが、利用可能な最大の量子化。
Lucy-Q6_K_L.gguf	Q6_K_L	1.49GB	false	埋め込みと出力重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、推奨。
Lucy-Q6_K.gguf	Q6_K	1.42GB	false	非常に高品質で、ほぼ完璧で、推奨。
Lucy-Q5_K_L.gguf	Q5_K_L	1.33GB	false	埋め込みと出力重みにQ8_0を使用。高品質で、推奨。
Lucy-Q5_K_M.gguf	Q5_K_M	1.26GB	false	高品質で、推奨。
Lucy-Q5_K_S.gguf	Q5_K_S	1.23GB	false	高品質で、推奨。
Lucy-Q4_K_L.gguf	Q4_K_L	1.18GB	false	埋め込みと出力重みにQ8_0を使用。良好な品質で、推奨。
Lucy-Q4_1.gguf	Q4_1	1.14GB	false	レガシー形式で、Q4_K_Sと同様のパフォーマンスを持ち、Apple siliconではトークン/ワットが改善されています。
Lucy-Q4_K_M.gguf	Q4_K_M	1.11GB	false	良好な品質で、ほとんどの使用ケースでのデフォルトサイズ、推奨。
Lucy-Q3_K_XL.gguf	Q3_K_XL	1.08GB	false	埋め込みと出力重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。
Lucy-Q4_K_S.gguf	Q4_K_S	1.06GB	false	品質がやや低いが、より多くのスペースを節約でき、推奨。
Lucy-Q4_0.gguf	Q4_0	1.06GB	false	レガシー形式で、ARMおよびAVX CPU推論用のオンライン再パッキングを提供します。
Lucy-IQ4_NL.gguf	IQ4_NL	1.05GB	false	IQ4_XSに似ていますが、やや大きい。ARM CPU推論用のオンライン再パッキングを提供します。
Lucy-IQ4_XS.gguf	IQ4_XS	1.01GB	false	適度な品質で、Q4_K_Sより小さく、同様のパフォーマンスを持ち、推奨。
Lucy-Q3_K_L.gguf	Q3_K_L	1.00GB	false	品質は低いが使用可能で、低RAM環境に適しています。
Lucy-Q3_K_M.gguf	Q3_K_M	0.94GB	false	低品質。
Lucy-IQ3_M.gguf	IQ3_M	0.90GB	false	中程度から低い品質で、Q3_K_Mに匹敵する適度なパフォーマンスを持つ新しい方法。
Lucy-Q3_K_S.gguf	Q3_K_S	0.87GB	false	低品質で、推奨しません。
Lucy-Q2_K_L.gguf	Q2_K_L	0.85GB	false	埋め込みと出力重みにQ8_0を使用。非常に低品質ですが、意外と使用可能です。
Lucy-IQ3_XS.gguf	IQ3_XS	0.83GB	false	品質は低いが、適度なパフォーマンスを持つ新しい方法で、Q3_K_Sより少し良い。
Lucy-Q2_K.gguf	Q2_K	0.78GB	false	非常に低品質ですが、意外と使用可能です。
Lucy-IQ3_XXS.gguf	IQ3_XXS	0.75GB	false	品質は低いが、適度なパフォーマンスを持つ新しい方法で、Q3量子化に匹敵します。

✨ 主な機能

量子化方式：llama.cpp のリリース b5924 を使用した量子化。
データセット：ここからのデータセットを用いたimatrixオプションによる量子化。
実行環境：LM Studio や llama.cpp での実行サポート。

📦 インストール

huggingface-cliを使用したダウンロード

ダウンロード手順を表示するにはクリック

まず、hugginface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードしたい特定のファイルを指定できます。

huggingface-cli download bartowski/Menlo_Lucy-GGUF --include "Menlo_Lucy-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。

huggingface-cli download bartowski/Menlo_Lucy-GGUF --include "Menlo_Lucy-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（Menlo_Lucy-Q8_0）を指定するか、すべてをその場所（./）にダウンロードすることができます。

💻 使用例

基本的な使用法

プロンプトフォーマットは以下の通りです。

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📚 ドキュメント

埋め込み/出力重み

一部の量子化（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法で、埋め込みと出力重みが通常のデフォルトではなくQ8_0に量子化されています。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みはARMおよびAVXマシンでのパフォーマンスを向上させるために、一度により多くのデータをロードすることでメモリ内でインターリーブされていました。

しかし、現在は「オンライン再パッキング」と呼ばれるものがあります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的に実行されます。

llama.cppビルド b4282 以降では、Q4_0_X_Xファイルを実行することはできず、代わりにQ4_0を使用する必要があります。

さらに、このPR により、IQ4_NLを使用すると、ARM用に重みを再パッキングすることができ、現在は4_4のみですが、品質を少し向上させることができます。ロード時間は遅くなる可能性がありますが、全体的な速度が向上します。

（非推奨）Q4_0_X_X情報を表示するにはクリック

このセクションは、オンライン再パッキングを使用したQ4_0の潜在的な理論的なパフォーマンス向上を示すために残しています。

AVX2システム（EPYC7702）でのベンチマークを表示するにはクリック

モデル	サイズ	パラメータ	バックエンド	スレッド	テスト	t/s	% (vs Q4_0)
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%

Q4_0_8_8は、プロンプト処理に大きな改善をもたらし、テキスト生成に小さな改善をもたらします。

どのファイルを選べばいいですか？

詳細はここをクリック

様々なパフォーマンスを示すチャート付きの素晴らしい解説が、Artefact2によってここで提供されています。

まず、実行できるモデルのサイズを判断する必要があります。これを行うには、持っているRAMおよび/またはVRAMの量を把握する必要があります。

モデルをできるだけ高速に実行したい場合は、全体をGPUのVRAMに収める必要があります。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化を選択してください。

絶対的な最高品質を求める場合は、システムRAMとGPUのVRAMを合計し、同様にその合計よりも1 - 2GB小さいファイルサイズの量子化を選択してください。

次に、「I量子化」または「K量子化」を使用するかを決定する必要があります。

あまり考えたくない場合は、K量子化のいずれかを選択してください。これらは 'QX_K_X' 形式で、Q5_K_Mのようなものです。

もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックすることができます。

llama.cpp機能マトリックス

基本的に、Q4以下を目指し、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I量子化を検討する必要があります。これらはIQX_X形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI量子化はCPUでも使用できますが、同等のK量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。

🔧 技術詳細

量子化には llama.cpp のリリース b5924 を使用しています。また、特定のデータセットを用いてimatrixオプションで量子化を行っています。

📄 ライセンス

このREADMEにはライセンス情報が含まれていません。

クレジット

kalomazeとDampfには、imatrixキャリブレーションデータセットの作成における支援に感謝します。
ZeroWwには、埋め込み/出力の実験のインスピレーションを提供してくれたことに感謝します。
LM Studioには、私の作業を支援してくれたことに感謝します。

私の作業をサポートしたい場合は、こちらのko-fiページを訪問してください：https://ko-fi.com/bartowski