モデル概要
モデル特徴
モデル能力
使用事例
🚀 Pygmalion 2 13B SuperCOT Weighed - GGUF
このモデルは、テキスト生成タスクに特化した、Royallabによって作成された高性能な言語モデルです。GGUF形式で提供され、多くのクライアントやライブラリと互換性があります。
🚀 クイックスタート
このモデルをすぐに使い始めるには、以下の手順に従ってください。
モデルのダウンロード
モデルを自動的にダウンロードするには、以下のクライアント/ライブラリを使用できます。
- LM Studio
- LoLLMS Web UI
- Faraday.dev
text-generation-webui
でダウンロードするには、「Download Model」の下にモデルのリポジトリ TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF
を入力し、その下にダウンロードする具体的なファイル名(例: pygmalion-2-13b-supercot-weighed.q4_K_M.gguf
)を入力して、「Download」をクリックします。
コマンドラインでダウンロードするには、huggingface-hub
Pythonライブラリを使用することをおすすめします。
pip3 install huggingface-hub>=0.17.1
その後、以下のコマンドで任意のモデルファイルを現在のディレクトリに高速でダウンロードできます。
huggingface-cli download TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
モデルの実行
llama.cppでの実行
llama.cpp
を使用してモデルを実行するには、以下のコマンドを使用します。
./main -ngl 32 -m pygmalion-2-13b-supercot-weighed.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{prompt}\n\n### Response:"
-ngl 32
はGPUにオフロードするレイヤー数を指定します。GPUアクセラレーションがない場合は削除してください。
-c 4096
は希望するシーケンス長を指定します。拡張シーケンスモデル(8K、16K、32Kなど)の場合、必要なRoPEスケーリングパラメータはGGUFファイルから読み取られ、llama.cpp
によって自動的に設定されます。
チャットスタイルの会話を行いたい場合は、-p <PROMPT>
引数を -i -ins
に置き換えてください。
text-generation-webuiでの実行
詳細な手順は text-generation-webui/docs/llama.cpp.md を参照してください。
Pythonコードからの実行
llama-cpp-python
または ctransformers
ライブラリを使用して、PythonからGGUFモデルを使用できます。
ctransformers
を使用してこのモデルをPythonからロードするには、まずパッケージをインストールします。
# GPUアクセラレーションなしの基本的なctransformers
pip install ctransformers>=0.2.24
# またはCUDA GPUアクセラレーション付き
pip install ctransformers[cuda]>=0.2.24
# またはROCm GPUアクセラレーション付き
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# またはmacOSシステムのMetal GPUアクセラレーション付き
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
以下は、これらのGGUFモデルの1つをロードする簡単なコード例です。
from ctransformers import AutoModelForCausalLM
# gpu_layersをGPUにオフロードするレイヤー数に設定します。システムでGPUアクセラレーションが利用できない場合は0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Pygmalion-2-13B-SuperCOT-weighed-GGUF", model_file="pygmalion-2-13b-supercot-weighed.q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
✨ 主な機能
- GGUF形式対応: GGUFはGGMLの代替形式で、より良いトークン化や特殊トークンのサポートなど、多くの利点を持っています。
- 多数のクライアント/ライブラリとの互換性: llama.cpp、text-generation-webui、KoboldCpp など、多くのクライアントやライブラリと互換性があります。
- 複数の量子化方法: 2、3、4、5、6、8ビットの量子化モデルが提供され、ユーザーのニーズに合わせて選択できます。
📦 インストール
モデルのダウンロードと実行に必要なライブラリのインストール方法は、「クイックスタート」セクションを参照してください。
📚 ドキュメント
モデルの詳細
- モデル作成者: royallab
- 元のモデル: Pygmalion 2 13B SuperCOT Weighed
- モデルタイプ: llama
- パイプラインタグ: text-generation
GGUF形式について
GGUFは2023年8月21日にllama.cppチームによって導入された新しい形式で、GGMLの代替となります。GGMLはもうllama.cppでサポートされていません。GGUFはGGMLに比べて多くの利点があり、例えば、より良いトークン化や特殊トークンのサポートがあり、メタデータもサポートし、拡張性を持つように設計されています。
以下は、GGUFをサポートすることが知られているクライアントやライブラリの不完全なリストです。
- llama.cpp。GGUFのソースプロジェクトで、CLIとサーバーオプションを提供します。
- text-generation-webui、最も広く使用されているウェブUIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションをサポートしています。
- KoboldCpp、全機能のウェブUIで、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションをサポートしています。特にストーリーテリングに適しています。
- LM Studio、WindowsとmacOS(Silicon)用の使いやすく強力なローカルGUIで、GPUアクセラレーションをサポートしています。
- LoLLMS Web UI、多くの興味深い独自の機能を備えた素晴らしいウェブUIで、簡単なモデル選択のための完全なモデルライブラリも含まれています。
- Faraday.dev、WindowsとmacOS(SiliconとIntelの両方)用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションをサポートしています。
- ctransformers、GPUアクセラレーション、LangChainサポート、OpenAI互換のAIサーバーを備えたPythonライブラリ。
- llama-cpp-python、GPUアクセラレーション、LangChainサポート、OpenAI互換のAPIサーバーを備えたPythonライブラリ。
- candle、パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートと使いやすさを備えています。
利用可能なリポジトリ
- GPU推論用のAWQモデル
- GPU推論用のGPTQモデル(複数の量子化パラメータオプションあり)
- CPU+GPU推論用の2、3、4、5、6、8ビットのGGUFモデル
- royallabの元の量子化されていないfp16モデル(pytorch形式、GPU推論とさらなる変換用)
プロンプトテンプレート
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
互換性
これらの量子化されたGGUFv2ファイルは、2023年8月27日以降の d0cee0d36d5be95a0d9088b674dbb27354107221 コミット以降の llama.cpp
と互換性があります。
また、多くのサードパーティのUIやライブラリとも互換性があります。詳細はこのREADMEの冒頭のリストを参照してください。
量子化方法の説明
詳細を表示するにはクリック
利用可能な新しい方法は以下の通りです。
- GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロックでの「タイプ1」の2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、重みあたり実質的に2.5625ビット(bpw)が使用されます。
- GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロックでの「タイプ0」の3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375 bpwが使用されます。
- GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロックでの「タイプ1」の4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5 bpwが使用されます。
- GGML_TYPE_Q5_K - 「タイプ1」の5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5 bpwになります。
- GGML_TYPE_Q6_K - 「タイプ0」の6ビット量子化。16個のブロックを含むスーパーブロックで、各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625 bpwが使用されます。
どのファイルがどの方法を使用しているか、およびその方法については、以下の「提供されるファイル」表を参照してください。
提供されるファイル
名前 | 量子化方法 | ビット数 | サイズ | 必要な最大RAM | 使用例 |
---|---|---|---|---|---|
pygmalion-2-13b-supercot-weighed.Q2_K.gguf | Q2_K | 2 | 5.43 GB | 7.93 GB | 最も小さいが、品質が大幅に低下する - ほとんどの目的には推奨されない |
pygmalion-2-13b-supercot-weighed.Q3_K_S.gguf | Q3_K_S | 3 | 5.66 GB | 8.16 GB | 非常に小さいが、品質が大きく低下する |
pygmalion-2-13b-supercot-weighed.Q3_K_M.gguf | Q3_K_M | 3 | 6.34 GB | 8.84 GB | 非常に小さいが、品質が大きく低下する |
pygmalion-2-13b-supercot-weighed.Q3_K_L.gguf | Q3_K_L | 3 | 6.93 GB | 9.43 GB | 小さいが、品質が大幅に低下する |
pygmalion-2-13b-supercot-weighed.Q4_0.gguf | Q4_0 | 4 | 7.37 GB | 9.87 GB | レガシー; 小さいが、品質が非常に大きく低下する - Q3_K_Mを使用することを推奨 |
pygmalion-2-13b-supercot-weighed.Q4_K_S.gguf | Q4_K_S | 4 | 7.41 GB | 9.91 GB | 小さいが、品質の低下が大きい |
pygmalion-2-13b-supercot-weighed.Q4_K_M.gguf | Q4_K_M | 4 | 7.87 GB | 10.37 GB | 中程度で、品質がバランスが良い - 推奨 |
pygmalion-2-13b-supercot-weighed.Q5_0.gguf | Q5_0 | 5 | 8.97 GB | 11.47 GB | レガシー; 中程度で、品質がバランスが良い - Q4_K_Mを使用することを推奨 |
pygmalion-2-13b-supercot-weighed.Q5_K_S.gguf | Q5_K_S | 5 | 8.97 GB | 11.47 GB | 大きいが、品質の低下が少ない - 推奨 |
pygmalion-2-13b-supercot-weighed.Q5_K_M.gguf | Q5_K_M | 5 | 9.23 GB | 11.73 GB | 大きいが、品質の低下が非常に少ない - 推奨 |
pygmalion-2-13b-supercot-weighed.Q6_K.gguf | Q6_K | 6 | 10.68 GB | 13.18 GB | 非常に大きいが、品質の低下が極めて少ない |
pygmalion-2-13b-supercot-weighed.Q8_0.gguf | Q8_0 | 8 | 13.83 GB | 16.33 GB | 非常に大きいが、品質の低下が極めて少ない - 推奨されない |
注: 上記のRAMの数値は、GPUオフロードを行わない場合を想定しています。レイヤーをGPUにオフロードすると、RAMの使用量が減少し、代わりにVRAMが使用されます。
🔧 技術詳細
このモデルは、Royallabによって作成されたLlamaベースの言語モデルです。量子化方法やモデルの構造に関する詳細は、上記の「量子化方法の説明」と「提供されるファイル」セクションを参照してください。
📄 ライセンス
このモデルはLlama2のライセンスの下で提供されています。
Discord
これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下のDiscordに参加してください。 TheBloke



