Dolphin3.0-Llama3.1-8B-GGUFオープンソースモデル - リソース制限環境での高効率実行、複数の量子化タイプから選択可能

Dolphin3.0 Llama3.1 8B GGUF

bartowskiによって開発

Dolphin3.0-Llama3.1-8Bモデルの量子化バージョンで、リソース制限のある環境での高効率な実行をサポートし、複数の量子化タイプを選択できます。

大規模言語モデル英語#高効率な量子化モデル #マルチタスクテキスト生成 #低リソースデプロイ

ダウンロード数 947

リリース時間 : 1/5/2025

モデル概要

このプロジェクトはDolphin3.0-Llama3.1-8Bモデルの量子化バージョンを提供し、リソース制限のある環境で大規模モデルを高効率に実行する問題を解決し、ユーザーがより少ないリソース消費でテキスト生成タスクを実行できるようにします。

モデル特徴

複数の量子化タイプ

ユーザーがさまざまな性能と品質の要件を満たすために、豊富な量子化タイプを提供します。

オンライン再パッケージング

一部の量子化タイプはオンライン再パッケージングをサポートし、自動的にハードウェア性能を最適化できます。

詳細なドキュメント

量子化モデルのダウンロード、使用、選択に関する詳細な説明を提供します。

モデル能力

テキスト生成

高効率な推論

リソース最適化

使用事例

テキスト生成

高効率なテキスト生成

リソース制限のある環境で高効率にテキストを生成します。

より少ないリソース消費でテキスト生成タスクを完了します。

🚀 Dolphin3.0-Llama3.1-8BのLlamacpp imatrix量子化

このプロジェクトは、Dolphin3.0-Llama3.1-8Bモデルをllama.cppを用いて量子化した成果を提供します。量子化により、モデルのサイズを削減し、さまざまなハードウェア環境での実行が可能になります。

属性	详情
量子化担当者	bartowski
パイプラインタグ	テキスト生成
言語	英語
ベースモデル	cognitivecomputations/Dolphin3.0-Llama3.1-8B
ライセンス	llama3.1
学習データセット	OpenCoder-LLM/opc-sft-stage1、OpenCoder-LLM/opc-sft-stage2、microsoft/orca-agentinstruct-1M-v1、microsoft/orca-math-word-problems-200k、NousResearch/hermes-function-calling-v1、AI-MO/NuminaMath-CoT、AI-MO/NuminaMath-TIR、allenai/tulu-3-sft-mixture、cognitivecomputations/dolphin-coder、HuggingFaceTB/smoltalk、cognitivecomputations/samantha-data、m-a-p/CodeFeedback-Filtered-Instruction、m-a-p/Code-Feedback

🚀 クイックスタート

量子化について

llama.cpp のリリース b4418 を使用して量子化を行っています。元のモデルはこちらです。すべての量子化は、ここのデータセットを使用して、imatrixオプションで行われています。

実行方法

モデルは LM Studio で実行できます。

プロンプトフォーマット

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📦 インストール

ファイルのダウンロード

以下の表から必要なファイルを選択してダウンロードできます。

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Dolphin3.0-Llama3.1-8B-f32.gguf	f32	32.13GB	false	完全なF32重み。
Dolphin3.0-Llama3.1-8B-f16.gguf	f16	16.07GB	false	完全なF16重み。
Dolphin3.0-Llama3.1-8B-Q8_0.gguf	Q8_0	8.54GB	false	非常に高品質で、通常は必要ありませんが、利用可能な最大の量子化。
Dolphin3.0-Llama3.1-8B-Q6_K_L.gguf	Q6_K_L	6.85GB	false	埋め込みと出力の重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、推奨。
Dolphin3.0-Llama3.1-8B-Q6_K.gguf	Q6_K	6.60GB	false	非常に高品質で、ほぼ完璧で、推奨。
Dolphin3.0-Llama3.1-8B-Q5_K_L.gguf	Q5_K_L	6.06GB	false	埋め込みと出力の重みにQ8_0を使用。高品質で、推奨。
Dolphin3.0-Llama3.1-8B-Q5_K_M.gguf	Q5_K_M	5.73GB	false	高品質で、推奨。
Dolphin3.0-Llama3.1-8B-Q5_K_S.gguf	Q5_K_S	5.60GB	false	高品質で、推奨。
Dolphin3.0-Llama3.1-8B-Q4_K_L.gguf	Q4_K_L	5.31GB	false	埋め込みと出力の重みにQ8_0を使用。良い品質で、推奨。
Dolphin3.0-Llama3.1-8B-Q4_1.gguf	Q4_1	5.13GB	false	レガシーフォーマット、Q4_K_Sと同様のパフォーマンスで、Appleシリコンでのトークン/ワットが改善されています。
Dolphin3.0-Llama3.1-8B-Q4_K_M.gguf	Q4_K_M	4.92GB	false	良い品質で、ほとんどのユースケースのデフォルトサイズ、推奨。
Dolphin3.0-Llama3.1-8B-Q3_K_XL.gguf	Q3_K_XL	4.78GB	false	埋め込みと出力の重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。
Dolphin3.0-Llama3.1-8B-Q4_K_S.gguf	Q4_K_S	4.69GB	false	品質が少し低いが、より多くのスペースを節約でき、推奨。
Dolphin3.0-Llama3.1-8B-Q4_0.gguf	Q4_0	4.68GB	false	レガシーフォーマット、ARMとAVX CPU推論のオンライン再パッキングを提供します。
Dolphin3.0-Llama3.1-8B-IQ4_NL.gguf	IQ4_NL	4.68GB	false	IQ4_XSに似ていますが、少し大きい。ARM CPU推論のオンライン再パッキングを提供します。
Dolphin3.0-Llama3.1-8B-IQ4_XS.gguf	IQ4_XS	4.45GB	false	適度な品質で、Q4_K_Sより小さく、同様のパフォーマンスを持ち、推奨。
Dolphin3.0-Llama3.1-8B-Q3_K_L.gguf	Q3_K_L	4.32GB	false	品質は低いが使用可能で、低RAM環境に適しています。
Dolphin3.0-Llama3.1-8B-Q3_K_M.gguf	Q3_K_M	4.02GB	false	低品質。
Dolphin3.0-Llama3.1-8B-IQ3_M.gguf	IQ3_M	3.78GB	false	中程度の低品質で、Q3_K_Mに匹敵するパフォーマンスを持つ新しい方法。
Dolphin3.0-Llama3.1-8B-Q2_K_L.gguf	Q2_K_L	3.69GB	false	埋め込みと出力の重みにQ8_0を使用。非常に低品質ですが、意外と使用可能です。
Dolphin3.0-Llama3.1-8B-Q3_K_S.gguf	Q3_K_S	3.66GB	false	低品質で、推奨しません。
Dolphin3.0-Llama3.1-8B-IQ3_XS.gguf	IQ3_XS	3.52GB	false	低品質で、新しい方法で適度なパフォーマンスを持ち、Q3_K_Sより少し良い。
Dolphin3.0-Llama3.1-8B-Q2_K.gguf	Q2_K	3.18GB	false	非常に低品質ですが、意外と使用可能です。
Dolphin3.0-Llama3.1-8B-IQ2_M.gguf	IQ2_M	2.95GB	false	比較的低品質ですが、SOTA技術を使用しているため、意外と使用可能です。

huggingface-cliを使用したダウンロード

まず、hugginface-cliをインストールします。

pip install -U "huggingface_hub[cli]"

次に、特定のファイルをダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/Dolphin3.0-Llama3.1-8B-GGUF --include "Dolphin3.0-Llama3.1-8B-Q4_K_M.gguf" --local-dir ./

モデルが50GBより大きい場合、複数のファイルに分割されています。すべてのファイルをローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/Dolphin3.0-Llama3.1-8B-GGUF --include "Dolphin3.0-Llama3.1-8B-Q8_0/*" --local-dir ./

新しいローカルディレクトリ (Dolphin3.0-Llama3.1-8B-Q8_0) を指定するか、すべてをそのままダウンロードすることができます (./)。

🔧 技術詳細

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、ARMおよびAVXマシンでのパフォーマンスを向上させるために、メモリ内で重みをインターリーブしていました。しかし、現在は「オンライン再パッキング」と呼ばれる機能があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的に実行されます。

llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできず、代わりにQ4_0を使用する必要があります。

さらに、このPR により、ARM用に重みを再パッキングするIQ4_NLを使用することで、少し品質を向上させることができます。ただし、現在は4_4のみです。読み込み時間は長くなる可能性がありますが、全体的な速度が向上します。

どのファイルを選べばいいですか？

まず、実行できるモデルのサイズを判断する必要があります。これには、持っているRAMおよび/またはVRAMの量を把握する必要があります。

モデルをできるだけ高速に実行したい場合は、全体をGPUのVRAMに収めることを目指します。GPUの総VRAMよりも1-2GB小さいファイルサイズの量子化を選択します。

最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、同様にその合計よりも1-2GB小さいファイルサイズの量子化を選択します。

次に、「I-quant」または「K-quant」を使用するかを決定する必要があります。

あまり考えたくない場合は、K-quantのいずれかを選択します。これらは「QX_K_X」の形式で、Q5_K_Mのようになります。

もっと詳細に調べたい場合は、この非常に便利な機能チャートを確認できます。

llama.cpp feature matrix

基本的に、Q4以下を対象とし、cuBLAS (Nvidia) またはrocBLAS (AMD) を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようになります。これらは新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI-quantはCPUおよびApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。

I-quantはVulcanと互換性がないため、AMDカードを持っている場合は、rocBLASビルドまたはVulcanビルドを使用しているかを確認してください。この記事を書いている時点で、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。