Phi-3.5-mini-instruct_Uncensored-GGUFオープンソース言語モデル - 多様なハードウェアに対応、無料で自由に利用可能！

ホーム

Phi 3.5 Mini Instruct Uncensored GGUF

bartowskiによって開発

Phi-3.5-mini-instruct_Uncensoredは量子化された言語モデルで、さまざまなハードウェア条件での使用に適しています。

大規模言語モデルオープンソースライセンス:Apache-2.0 #高効率量子化 #無審査対話 #軽量推論

ダウンロード数 1,953

リリース時間 : 8/22/2024

モデル概要

このモデルは量子化された言語モデルで、テキスト生成タスクをサポートし、異なるハードウェア条件での使用に適しています。

モデル特徴

複数の量子化バージョン

Q2_KからQ8_0までの複数の量子化バージョンを提供し、異なるハードウェア条件での使用ニーズを満たします。

高品質量子化

imatrixオプションと特定のデータセットを使用して量子化を行い、モデルの品質を確保します。

ハードウェア互換性

LM Studioなどの複数の環境での実行をサポートし、異なるハードウェア構成と互換性があります。

モデル能力

テキスト生成

命令追従

多輪対話

使用事例

汎用テキスト生成

対話システム

対話システムの構築に使用し、多輪対話と命令追従をサポートします。

流暢で文脈に沿った返答を生成します。

コンテンツ作成

記事、物語などのコンテンツの生成に使用します。

高品質で首尾一貫したテキストコンテンツを生成します。

🚀 Phi-3.5-mini-instruct_UncensoredのLlamacpp imatrix量子化

このプロジェクトは、Phi-3.5-mini-instruct_Uncensoredモデルをllama.cppを用いて量子化したものです。量子化により、モデルのサイズを削減し、メモリ使用量を抑えることができます。

🚀 クイックスタート

量子化に使用したバージョン

llama.cpp の b3600 リリースを使用して量子化を行っています。

オリジナルモデル

オリジナルのモデルはこちらです。

量子化データセット

すべての量子化は、ここのデータセットを使用して imatrix オプションで行われています。

実行環境

これらの量子化モデルは LM Studio で実行できます。

✨ 主な機能

プロンプトフォーマット

<s><|system|> {system_prompt}<|end|><|user|> {prompt}<|end|><|assistant|><|end|>

ダウンロード

以下の表から、必要なファイルを選択してダウンロードできます。

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Phi-3.5-mini-instruct_Uncensored-f16.gguf	f16	7.64GB	false	完全なF16重み。
Phi-3.5-mini-instruct_Uncensored-Q8_0.gguf	Q8_0	4.06GB	false	非常に高品質で、一般的には必要ないが、利用可能な最大の量子化。
Phi-3.5-mini-instruct_Uncensored-Q6_K_L.gguf	Q6_K_L	3.18GB	false	埋め込みと出力重みにQ8_0を使用。非常に高品質で、ほぼ完璧、おすすめ。
Phi-3.5-mini-instruct_Uncensored-Q6_K.gguf	Q6_K	3.14GB	false	非常に高品質で、ほぼ完璧、おすすめ。
Phi-3.5-mini-instruct_Uncensored-Q5_K_L.gguf	Q5_K_L	2.88GB	false	埋め込みと出力重みにQ8_0を使用。高品質、おすすめ。
Phi-3.5-mini-instruct_Uncensored-Q5_K_M.gguf	Q5_K_M	2.82GB	false	高品質、おすすめ。
Phi-3.5-mini-instruct_Uncensored-Q5_K_S.gguf	Q5_K_S	2.64GB	false	高品質、おすすめ。
Phi-3.5-mini-instruct_Uncensored-Q4_K_L.gguf	Q4_K_L	2.47GB	false	埋め込みと出力重みにQ8_0を使用。良い品質、おすすめ。
Phi-3.5-mini-instruct_Uncensored-Q4_K_M.gguf	Q4_K_M	2.39GB	false	良い品質、ほとんどのケースでのデフォルトサイズ、おすすめ。
Phi-3.5-mini-instruct_Uncensored-Q4_K_S.gguf	Q4_K_S	2.19GB	false	品質が少し低いが、より多くのスペースを節約できる、おすすめ。
Phi-3.5-mini-instruct_Uncensored-Q3_K_XL.gguf	Q3_K_XL	2.17GB	false	埋め込みと出力重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適している。
Phi-3.5-mini-instruct_Uncensored-Q3_K_L.gguf	Q3_K_L	2.09GB	false	品質は低いが使用可能で、低RAM環境に適している。
Phi-3.5-mini-instruct_Uncensored-IQ4_XS.gguf	IQ4_XS	2.06GB	false	適度な品質で、Q4_K_Sよりも小さく、類似したパフォーマンスを持つ、おすすめ。
Phi-3.5-mini-instruct_Uncensored-Q3_K_M.gguf	Q3_K_M	1.96GB	false	低品質。
Phi-3.5-mini-instruct_Uncensored-IQ3_M.gguf	IQ3_M	1.86GB	false	中低品質、Q3_K_Mに匹敵するパフォーマンスを持つ新しい方法。
Phi-3.5-mini-instruct_Uncensored-Q3_K_S.gguf	Q3_K_S	1.68GB	false	低品質、おすすめしない。
Phi-3.5-mini-instruct_Uncensored-IQ3_XS.gguf	IQ3_XS	1.63GB	false	品質が低いが、パフォーマンスは適度で、Q3_K_Sよりも少し良い。
Phi-3.5-mini-instruct_Uncensored-Q2_K_L.gguf	Q2_K_L	1.51GB	false	埋め込みと出力重みにQ8_0を使用。非常に低品質だが、意外と使用可能。
Phi-3.5-mini-instruct_Uncensored-Q2_K.gguf	Q2_K	1.42GB	false	非常に低品質だが、意外と使用可能。
Phi-3.5-mini-instruct_Uncensored-IQ2_M.gguf	IQ2_M	1.32GB	false	比較的低品質だが、最先端の技術を使用しているため、意外と使用可能。

埋め込み/出力重み

一部の量子化（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法で、埋め込みと出力重みを通常のデフォルト値ではなくQ8_0に量子化しています。一部の人はこれにより品質が向上すると言い、他の人は違いを感じないと言っています。これらのモデルを使用した場合は、あなたの発見をコメントしてください。誰も使用していない量子化をアップロードし続けないように、実際に使用されていて有用であるというフィードバックが欲しいです。ありがとう！

クレジット

imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。埋め込み/出力の実験のインスピレーションをくれたZeroWwに感謝します。

📦 インストール

huggingface-cliを使用したダウンロード

まず、huggingface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードしたい特定のファイルを指定できます。

huggingface-cli download bartowski/Phi-3.5-mini-instruct_Uncensored-GGUF --include "Phi-3.5-mini-instruct_Uncensored-Q4_K_M.gguf" --local-dir ./

モデルが50GBより大きい場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。

huggingface-cli download bartowski/Phi-3.5-mini-instruct_Uncensored-GGUF --include "Phi-3.5-mini-instruct_Uncensored-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（Phi-3.5-mini-instruct_Uncensored-Q8_0）を指定するか、すべてをその場所にダウンロードすることができます（./）。

📚 ドキュメント

どのファイルを選べばいいですか？

様々なパフォーマンスを示すグラフ付きの素晴らしい解説記事がArtefact2によってここに提供されています。まず、実行できるモデルのサイズを把握する必要があります。これを行うには、あなたが持っているRAMおよび/またはVRAMの量を把握する必要があります。モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めたいと思うでしょう。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化を選択してください。絶対的な最高品質を望む場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化を選択してください。次に、「I-量子化」または「K-量子化」を使用するかを決定する必要があります。あまり考えたくない場合は、K-量子化のいずれかを選択してください。これらは 'QX_K_X' の形式で、Q5_K_Mのようなものです。もっと詳しく調べたい場合は、この非常に便利な機能チャートをチェックすることができます。 llama.cpp機能マトリックス基本的に、Q4以下を目指していて、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-量子化を検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。これらのI-量子化はCPUとApple Metalでも使用できますが、同等のK-量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。 I-量子化はVulcan（これもAMD）と互換性がありません。したがって、AMDカードを持っている場合は、rocBLASビルドまたはVulcanビルドを使用しているかを再度確認してください。この記事を書いている時点で、LM StudioにはROCmサポートのプレビュー版があり、他の推論エンジンにはROCm用の特定のビルドがあります。私の仕事をサポートしたい場合は、こちらのko-fiページを訪問してください：https://ko-fi.com/bartowski