🚀 Llama-3-cat-8b-instruct-v1のLlamacpp imatrix量子化
このプロジェクトは、llama-3-cat-8b-instruct-v1モデルの量子化を行い、様々な量子化形式のモデルを提供します。量子化にはllama.cpp
を使用しており、ユーザーは自身の環境に合った量子化モデルを選択できます。
🚀 クイックスタート
ダウンロード方法
ダウンロードリンクからのダウンロード
以下の表から必要なファイルを選択し、リンクをクリックしてダウンロードしてください。
huggingface-cliを使用したダウンロード
まず、huggingface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードしたい特定のファイルを指定できます。
huggingface-cli download bartowski/llama-3-cat-8b-instruct-v1-GGUF --include "llama-3-cat-8b-instruct-v1-Q4_K_M.gguf" --local-dir ./ --local-dir-use-symlinks False
モデルが50GBより大きい場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。
huggingface-cli download bartowski/llama-3-cat-8b-instruct-v1-GGUF --include "llama-3-cat-8b-instruct-v1-Q8_0.gguf/*" --local-dir llama-3-cat-8b-instruct-v1-Q8_0 --local-dir-use-symlinks False
新しいローカルディレクトリ(llama-3-cat-8b-instruct-v1-Q8_0)を指定するか、すべてを現在のディレクトリ(./)にダウンロードできます。
✨ 主な機能
- 多様な量子化形式:様々な量子化形式のモデルを提供し、ユーザーは自身の環境に合った量子化を選択できます。
- 高速ダウンロード:huggingface-cliを使用して、高速かつ簡単にモデルをダウンロードできます。
📦 インストール
huggingface-cliのインストール
pip install -U "huggingface_hub[cli]"
💻 使用例
基本的な使用法
特定のファイルをダウンロードする場合:
huggingface-cli download bartowski/llama-3-cat-8b-instruct-v1-GGUF --include "llama-3-cat-8b-instruct-v1-Q4_K_M.gguf" --local-dir ./ --local-dir-use-symlinks False
高度な使用法
大きなモデル(50GB以上)をダウンロードする場合:
huggingface-cli download bartowski/llama-3-cat-8b-instruct-v1-GGUF --include "llama-3-cat-8b-instruct-v1-Q8_0.gguf/*" --local-dir llama-3-cat-8b-instruct-v1-Q8_0 --local-dir-use-symlinks False
📚 ドキュメント
プロンプトフォーマット
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>
{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
どのファイルを選ぶべきか
Artefact2による様々なパフォーマンスを示すチャート付きの素晴らしい記事がこちらにあります。
まず、実行できるモデルのサイズを判断する必要があります。これには、持っているRAMおよび/またはVRAMの量を把握する必要があります。
モデルをできるだけ速く実行したい場合は、GPUのVRAMに全体を収めることを目指します。GPUの総VRAMより1 - 2GB小さいファイルサイズの量子化を選択してください。
最高品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計より1 - 2GB小さいファイルサイズの量子化を選択してください。
次に、'I-quant'または'K-quant'を使用するかを決定する必要があります。
あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは'QX_K_X'の形式で、Q5_K_Mのようなものです。
もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックできます。
llama.cpp feature matrix
基本的に、Q4以下を目指しており、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI-quantはCPUおよびApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。
I-quantはVulcan(AMD)と互換性がありません。したがって、AMDカードを持っている場合は、rocBLASビルドまたはVulcanビルドを使用しているかを再確認してください。この記事を書いている時点で、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。
🔧 技術詳細
📄 ライセンス
このプロジェクトはllama3ライセンスの下で提供されています。
支援の申し出
このプロジェクトの開発をサポートしたい場合は、こちらのko-fiページをご訪問ください。