llama-3-cat-8b-instruct-v1-GGUFオープンソースモデル - リソース制限のある環境に適し、無料で利用可能！

ホーム

Llama 3 Cat 8b Instruct V1 GGUF

bartowskiによって開発

これはMetaのLlama 3アーキテクチャを基にした8Bパラメータの命令ファインチューニングモデルで、GGUF量子化処理が施されており、リソースが限られた環境に適しています。

大規模言語モデル #高精度量子化 #命令ファインチューニング #マルチターン会話

ダウンロード数 909

リリース時間 : 5/13/2024

モデル概要

このモデルはLlama 3の命令ファインチューニング版で、会話や命令追従タスクに特化して最適化されており、さまざまなハードウェア要件に対応するため複数の量子化バージョンを提供します。

モデル特徴

マルチ量子化バージョン

Q8_0からIQ1_Sまでの20種類の量子化バージョンを提供し、異なるハードウェア構成と性能要件に対応します。

命令最適化

命令追従タスクに特化してファインチューニングされており、会話やインタラクティブなアプリケーションシーンに適しています。

効率的な推論

llama.cppを使用して最適化されており、コンシューマーグレードのハードウェアでも効率的な推論を実現します。

モデル能力

テキスト生成

対話システム

命令理解と実行

マルチターン会話

使用事例

対話システム

インテリジェントアシスタント

複雑な命令を理解できる個人アシスタントの構築

スムーズなマルチターン会話とタスク実行が可能

教育アプリケーション

学習サポート

学生の質問に答える学習サポートツールとして

複雑な概念を説明し学習アドバイスを提供できる

🚀 Llama-3-cat-8b-instruct-v1のLlamacpp imatrix量子化

このプロジェクトは、llama-3-cat-8b-instruct-v1モデルの量子化を行い、様々な量子化形式のモデルを提供します。量子化にはllama.cppを使用しており、ユーザーは自身の環境に合った量子化モデルを選択できます。

🚀 クイックスタート

ダウンロード方法

ダウンロードリンクからのダウンロード

以下の表から必要なファイルを選択し、リンクをクリックしてダウンロードしてください。

ファイル名	量子化タイプ	ファイルサイズ	説明
llama-3-cat-8b-instruct-v1-Q8_0.gguf	Q8_0	8.54GB	非常に高品質で、通常は必要ありませんが、利用可能な最大の量子化です。
llama-3-cat-8b-instruct-v1-Q6_K.gguf	Q6_K	6.59GB	非常に高品質で、ほぼ完璧です。推奨
llama-3-cat-8b-instruct-v1-Q5_K_M.gguf	Q5_K_M	5.73GB	高品質です。推奨
llama-3-cat-8b-instruct-v1-Q5_K_S.gguf	Q5_K_S	5.59GB	高品質です。推奨
llama-3-cat-8b-instruct-v1-Q4_K_M.gguf	Q4_K_M	4.92GB	良好な品質で、重みあたり約4.83ビットを使用します。推奨
llama-3-cat-8b-instruct-v1-Q4_K_S.gguf	Q4_K_S	4.69GB	品質が少し低いですが、より多くのスペースを節約できます。推奨
llama-3-cat-8b-instruct-v1-IQ4_NL.gguf	IQ4_NL	4.67GB	適度な品質で、Q4_K_Sより少し小さく、類似したパフォーマンスを持ちます。推奨
llama-3-cat-8b-instruct-v1-IQ4_XS.gguf	IQ4_XS	4.44GB	適度な品質で、Q4_K_Sより小さく、類似したパフォーマンスを持ちます。推奨
llama-3-cat-8b-instruct-v1-Q3_K_L.gguf	Q3_K_L	4.32GB	品質は低いですが、使用可能です。低RAM環境に適しています。
llama-3-cat-8b-instruct-v1-Q3_K_M.gguf	Q3_K_M	4.01GB	さらに品質が低いです。
llama-3-cat-8b-instruct-v1-IQ3_M.gguf	IQ3_M	3.78GB	中程度の低品質ですが、Q3_K_Mに匹敵するパフォーマンスを持つ新しい方法です。
llama-3-cat-8b-instruct-v1-IQ3_S.gguf	IQ3_S	3.68GB	品質は低いですが、新しい方法で適度なパフォーマンスを持ちます。Q3_K_S量子化より推奨されます。同じサイズで、より良いパフォーマンスを持ちます。
llama-3-cat-8b-instruct-v1-Q3_K_S.gguf	Q3_K_S	3.66GB	低品質で、推奨されません。
llama-3-cat-8b-instruct-v1-IQ3_XS.gguf	IQ3_XS	3.51GB	品質は低いですが、新しい方法で適度なパフォーマンスを持ちます。Q3_K_Sより少し良いです。
llama-3-cat-8b-instruct-v1-IQ3_XXS.gguf	IQ3_XXS	3.27GB	品質は低いですが、新しい方法で適度なパフォーマンスを持ちます。Q3量子化に匹敵します。
llama-3-cat-8b-instruct-v1-Q2_K.gguf	Q2_K	3.17GB	非常に低品質ですが、驚くほど使用可能です。
llama-3-cat-8b-instruct-v1-IQ2_M.gguf	IQ2_M	2.94GB	非常に低品質ですが、最先端の技術を使用しているため、驚くほど使用可能です。
llama-3-cat-8b-instruct-v1-IQ2_S.gguf	IQ2_S	2.75GB	非常に低品質ですが、最先端の技術を使用しているため、使用可能です。
llama-3-cat-8b-instruct-v1-IQ2_XS.gguf	IQ2_XS	2.60GB	非常に低品質ですが、最先端の技術を使用しているため、使用可能です。
llama-3-cat-8b-instruct-v1-IQ2_XXS.gguf	IQ2_XXS	2.39GB	品質は低いですが、最先端の技術を使用しているため、使用可能です。
llama-3-cat-8b-instruct-v1-IQ1_M.gguf	IQ1_M	2.16GB	非常に低品質で、推奨されません。
llama-3-cat-8b-instruct-v1-IQ1_S.gguf	IQ1_S	2.01GB	非常に低品質で、推奨されません。

huggingface-cliを使用したダウンロード

まず、huggingface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードしたい特定のファイルを指定できます。

huggingface-cli download bartowski/llama-3-cat-8b-instruct-v1-GGUF --include "llama-3-cat-8b-instruct-v1-Q4_K_M.gguf" --local-dir ./ --local-dir-use-symlinks False

モデルが50GBより大きい場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。

huggingface-cli download bartowski/llama-3-cat-8b-instruct-v1-GGUF --include "llama-3-cat-8b-instruct-v1-Q8_0.gguf/*" --local-dir llama-3-cat-8b-instruct-v1-Q8_0 --local-dir-use-symlinks False

新しいローカルディレクトリ（llama-3-cat-8b-instruct-v1-Q8_0）を指定するか、すべてを現在のディレクトリ（./）にダウンロードできます。

✨ 主な機能

多様な量子化形式：様々な量子化形式のモデルを提供し、ユーザーは自身の環境に合った量子化を選択できます。
高速ダウンロード：huggingface-cliを使用して、高速かつ簡単にモデルをダウンロードできます。

📦 インストール

huggingface-cliのインストール

pip install -U "huggingface_hub[cli]"

💻 使用例

基本的な使用法

特定のファイルをダウンロードする場合：

huggingface-cli download bartowski/llama-3-cat-8b-instruct-v1-GGUF --include "llama-3-cat-8b-instruct-v1-Q4_K_M.gguf" --local-dir ./ --local-dir-use-symlinks False

高度な使用法

大きなモデル（50GB以上）をダウンロードする場合：

huggingface-cli download bartowski/llama-3-cat-8b-instruct-v1-GGUF --include "llama-3-cat-8b-instruct-v1-Q8_0.gguf/*" --local-dir llama-3-cat-8b-instruct-v1-Q8_0 --local-dir-use-symlinks False

📚 ドキュメント

プロンプトフォーマット

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

どのファイルを選ぶべきか

Artefact2による様々なパフォーマンスを示すチャート付きの素晴らしい記事がこちらにあります。まず、実行できるモデルのサイズを判断する必要があります。これには、持っているRAMおよび/またはVRAMの量を把握する必要があります。モデルをできるだけ速く実行したい場合は、GPUのVRAMに全体を収めることを目指します。GPUの総VRAMより1 - 2GB小さいファイルサイズの量子化を選択してください。最高品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計より1 - 2GB小さいファイルサイズの量子化を選択してください。次に、'I-quant'または'K-quant'を使用するかを決定する必要があります。あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは'QX_K_X'の形式で、Q5_K_Mのようなものです。もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックできます。 llama.cpp feature matrix 基本的に、Q4以下を目指しており、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-quantを検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。これらのI-quantはCPUおよびApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。 I-quantはVulcan（AMD）と互換性がありません。したがって、AMDカードを持っている場合は、rocBLASビルドまたはVulcanビルドを使用しているかを再確認してください。この記事を書いている時点で、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。