llama-3-70B-Instruct-abliterated-GGUFオープンソースモデル - ローカルデプロイと高効率推論をサポート

ホーム

Llama 3 70B Instruct Abliterated GGUF

bartowskiによって開発

Meta LLaMA-3 70Bをベースにした命令微調整モデルで、量子化処理されており、ローカル展開と効率的な推論に適しています。

大規模言語モデル #70B大規模モデル #マルチレベル量子化 #テキスト生成

ダウンロード数 686

リリース時間 : 5/16/2024

モデル概要

これは70Bパラメータ規模の大規模言語モデルで、命令追従タスクに特化して最適化されており、様々なテキスト生成シナリオに適用できます。

モデル特徴

効率的な量子化

Q8_0からIQ1_Sまでの様々な量子化レベルを提供し、異なるハードウェア条件での展開ニーズに対応

命令最適化

命令追従タスクに特化して微調整されており、ユーザーの命令をより良く理解し実行可能

ローカル展開

GGUFフォーマットでローカル実行をサポートし、クラウドサービスへの依存不要

高性能推論

高圧縮率でも良好な生成品質を維持

モデル能力

テキスト生成

命令理解

対話システム

コンテンツ作成

使用事例

スマートアシスタント

個人アシスタント

日常的な質問応答やスケジュール管理などの個人アシスタント機能に使用

コンテンツ作成

記事執筆

様々な記事やレポートなどのテキストコンテンツ作成を支援

教育

学習支援

学生向けの学習支援や知識解答を提供

🚀 Llama-3-70B-Instruct-abliteratedのLlamacpp imatrix量子化

このプロジェクトは、llama.cpp のリリース b2854 を使用して、llama-3-70B-Instruct-abliteratedモデルの量子化を行っています。元のモデルはこちらです。すべての量子化は、ここのデータセットを使用して、imatrixオプションで行われています。

🚀 クイックスタート

プロンプトフォーマット

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

ファイルのダウンロード

以下の表から特定のファイルを選択してダウンロードできます。

ファイル名	量子化タイプ	ファイルサイズ	説明
llama-3-70B-Instruct-abliterated-Q8_0.gguf	Q8_0	74.97GB	非常に高品質ですが、一般的には必要ない、最大の量子化オプションです。
llama-3-70B-Instruct-abliterated-Q6_K.gguf	Q6_K	57.88GB	非常に高品質で、ほぼ完璧です。推奨
llama-3-70B-Instruct-abliterated-Q5_K_M.gguf	Q5_K_M	49.94GB	高品質です。推奨
llama-3-70B-Instruct-abliterated-Q5_K_S.gguf	Q5_K_S	48.65GB	高品質です。推奨
llama-3-70B-Instruct-abliterated-Q4_K_M.gguf	Q4_K_M	42.52GB	良い品質で、1重みあたり約4.83ビットを使用します。推奨
llama-3-70B-Instruct-abliterated-Q4_K_S.gguf	Q4_K_S	40.34GB	品質は少し低いですが、より多くのスペースを節約できます。推奨
llama-3-70B-Instruct-abliterated-IQ4_NL.gguf	IQ4_NL	40.05GB	まともな品質で、Q4_K_Sより少し小さく、同様のパフォーマンスを持ちます。推奨
llama-3-70B-Instruct-abliterated-IQ4_XS.gguf	IQ4_XS	37.90GB	まともな品質で、Q4_K_Sより小さく、同様のパフォーマンスを持ちます。推奨
llama-3-70B-Instruct-abliterated-Q3_K_L.gguf	Q3_K_L	37.14GB	品質は低いですが、使用可能で、低RAM環境に適しています。
llama-3-70B-Instruct-abliterated-Q3_K_M.gguf	Q3_K_M	34.26GB	さらに品質が低いです。
llama-3-70B-Instruct-abliterated-IQ3_M.gguf	IQ3_M	31.93GB	中程度の品質で、Q3_K_Mと同程度のパフォーマンスを持つ新しい方法です。
llama-3-70B-Instruct-abliterated-IQ3_S.gguf	IQ3_S	30.91GB	品質は低いですが、パフォーマンスは良い新しい方法です。Q3_K_Sより推奨されます。同じサイズで、より良いパフォーマンスを持ちます。
llama-3-70B-Instruct-abliterated-Q3_K_S.gguf	Q3_K_S	30.91GB	低品質で、推奨されません。
llama-3-70B-Instruct-abliterated-IQ3_XS.gguf	IQ3_XS	29.30GB	品質は低いですが、パフォーマンスは良い新しい方法です。Q3_K_Sより少し良いです。
llama-3-70B-Instruct-abliterated-IQ3_XXS.gguf	IQ3_XXS	27.46GB	品質は低いですが、パフォーマンスは良い新しい方法です。Q3系の量子化と同程度です。
llama-3-70B-Instruct-abliterated-Q2_K.gguf	Q2_K	26.37GB	非常に低い品質ですが、意外と使用可能です。
llama-3-70B-Instruct-abliterated-IQ2_M.gguf	IQ2_M	24.11GB	非常に低い品質ですが、最先端の技術を使用しているため、意外と使用可能です。
llama-3-70B-Instruct-abliterated-IQ2_S.gguf	IQ2_S	22.24GB	非常に低い品質ですが、最先端の技術を使用しているため、使用可能です。
llama-3-70B-Instruct-abliterated-IQ2_XS.gguf	IQ2_XS	21.14GB	非常に低い品質ですが、最先端の技術を使用しているため、使用可能です。
llama-3-70B-Instruct-abliterated-IQ2_XXS.gguf	IQ2_XXS	19.09GB	品質は低いですが、最先端の技術を使用しているため、使用可能です。
llama-3-70B-Instruct-abliterated-IQ1_M.gguf	IQ1_M	16.75GB	非常に低い品質です。推奨されません
llama-3-70B-Instruct-abliterated-IQ1_S.gguf	IQ1_S	15.34GB	非常に低い品質です。推奨されません

huggingface-cliを使用したダウンロード

まず、huggingface-cliをインストールしてください。

pip install -U "huggingface_hub[cli]"

次に、特定のファイルをダウンロードすることができます。

huggingface-cli download bartowski/llama-3-70B-Instruct-abliterated-GGUF --include "llama-3-70B-Instruct-abliterated-Q4_K_M.gguf" --local-dir ./ --local-dir-use-symlinks False

モデルが50GB以上の場合、複数のファイルに分割されています。すべてのファイルをローカルフォルダにダウンロードするには、次のコマンドを実行します。

huggingface-cli download bartowski/llama-3-70B-Instruct-abliterated-GGUF --include "llama-3-70B-Instruct-abliterated-Q8_0.gguf/*" --local-dir llama-3-70B-Instruct-abliterated-Q8_0 --local-dir-use-symlinks False

新しいローカルディレクトリ (llama-3-70B-Instruct-abliterated-Q8_0) を指定するか、すべてを現在のディレクトリ (./) にダウンロードすることができます。

📚 詳細ドキュメント

どのファイルを選べばいいですか？

Artefact2による、様々なパフォーマンスを示すチャート付きの素晴らしい記事がこちらにあります。

まず、実行できるモデルのサイズを把握する必要があります。これには、持っているRAMと/またはVRAMの量を把握する必要があります。

モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることを目指します。GPUの総VRAMより1 - 2GB小さいファイルサイズの量子化を選択してください。

最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計より1 - 2GB小さいファイルサイズの量子化を選択してください。

次に、'I-quant' または 'K-quant' を使用するかを決める必要があります。

あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは 'QX_K_X' の形式で、例えば Q5_K_M です。

もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックしてください。 llama.cpp feature matrix

基本的に、Q4以下を目指しており、cuBLAS (Nvidia) または rocBLAS (AMD) を使用している場合は、I-quantを検討する必要があります。これらは IQX_X の形式で、例えば IQ3_M です。これらは新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI-quantはCPUとApple Metalでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決める必要があります。

I-quantはVulcan (AMD) と互換性がありません。したがって、AMDカードを持っている場合は、rocBLASビルドまたはVulcanビルドを使用しているかを確認してください。この記事を書いている時点で、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。