🚀 Dolphin3.0-Llama3.1-8BのLlamacpp imatrix量子化
このプロジェクトは、Dolphin3.0-Llama3.1-8Bモデルをllama.cpp
を用いて量子化した成果を提供します。量子化により、モデルのサイズを削減し、さまざまなハードウェア環境での実行が可能になります。
属性 |
详情 |
量子化担当者 |
bartowski |
パイプラインタグ |
テキスト生成 |
言語 |
英語 |
ベースモデル |
cognitivecomputations/Dolphin3.0-Llama3.1-8B |
ライセンス |
llama3.1 |
学習データセット |
OpenCoder-LLM/opc-sft-stage1、OpenCoder-LLM/opc-sft-stage2、microsoft/orca-agentinstruct-1M-v1、microsoft/orca-math-word-problems-200k、NousResearch/hermes-function-calling-v1、AI-MO/NuminaMath-CoT、AI-MO/NuminaMath-TIR、allenai/tulu-3-sft-mixture、cognitivecomputations/dolphin-coder、HuggingFaceTB/smoltalk、cognitivecomputations/samantha-data、m-a-p/CodeFeedback-Filtered-Instruction、m-a-p/Code-Feedback |
🚀 クイックスタート
量子化について
llama.cpp のリリース b4418 を使用して量子化を行っています。元のモデルは こちら です。すべての量子化は、ここ のデータセットを使用して、imatrixオプションで行われています。
実行方法
モデルは LM Studio で実行できます。
プロンプトフォーマット
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
📦 インストール
ファイルのダウンロード
以下の表から必要なファイルを選択してダウンロードできます。
huggingface-cliを使用したダウンロード
まず、hugginface-cliをインストールします。
pip install -U "huggingface_hub[cli]"
次に、特定のファイルをダウンロードするには、以下のコマンドを実行します。
huggingface-cli download bartowski/Dolphin3.0-Llama3.1-8B-GGUF --include "Dolphin3.0-Llama3.1-8B-Q4_K_M.gguf" --local-dir ./
モデルが50GBより大きい場合、複数のファイルに分割されています。すべてのファイルをローカルフォルダにダウンロードするには、以下のコマンドを実行します。
huggingface-cli download bartowski/Dolphin3.0-Llama3.1-8B-GGUF --include "Dolphin3.0-Llama3.1-8B-Q8_0/*" --local-dir ./
新しいローカルディレクトリ (Dolphin3.0-Llama3.1-8B-Q8_0) を指定するか、すべてをそのままダウンロードすることができます (./)。
🔧 技術詳細
ARM/AVX情報
以前は、Q4_0_4_4/4_8/8_8をダウンロードし、ARMおよびAVXマシンでのパフォーマンスを向上させるために、メモリ内で重みをインターリーブしていました。しかし、現在は「オンライン再パッキング」と呼ばれる機能があります。詳細は このPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的に実行されます。
llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできず、代わりにQ4_0を使用する必要があります。
さらに、このPR により、ARM用に重みを再パッキングするIQ4_NLを使用することで、少し品質を向上させることができます。ただし、現在は4_4のみです。読み込み時間は長くなる可能性がありますが、全体的な速度が向上します。
どのファイルを選べばいいですか?
まず、実行できるモデルのサイズを判断する必要があります。これには、持っているRAMおよび/またはVRAMの量を把握する必要があります。
モデルをできるだけ高速に実行したい場合は、全体をGPUのVRAMに収めることを目指します。GPUの総VRAMよりも1-2GB小さいファイルサイズの量子化を選択します。
最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、同様にその合計よりも1-2GB小さいファイルサイズの量子化を選択します。
次に、「I-quant」または「K-quant」を使用するかを決定する必要があります。
あまり考えたくない場合は、K-quantのいずれかを選択します。これらは「QX_K_X」の形式で、Q5_K_Mのようになります。
もっと詳細に調べたい場合は、この非常に便利な機能チャートを確認できます。
llama.cpp feature matrix
基本的に、Q4以下を対象とし、cuBLAS (Nvidia) またはrocBLAS (AMD) を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようになります。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI-quantはCPUおよびApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。
I-quantはVulcanと互換性がないため、AMDカードを持っている場合は、rocBLASビルドまたはVulcanビルドを使用しているかを確認してください。この記事を書いている時点で、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。
📄 ライセンス
このプロジェクトは llama3.1 ライセンスの下で提供されています。
謝辞
imatrixキャリブレーションデータセットの作成に協力してくれた kalomaze と Dampf に感謝します。
埋め込み/出力の実験のインスピレーションを与えてくれた ZeroWw に感謝します。
このプロジェクトをサポートしたい場合は、こちら のko-fiページを訪問してください。