モデル概要
モデル特徴
モデル能力
使用事例
🚀 Mythalion 13B - GGUF
このモデルは、テキスト生成タスクに特化した高性能な言語モデルです。PygmalionAIによって開発され、多様なデータセットで訓練されています。GGUF形式で提供されるこのモデルは、多くのクライアントやライブラリと互換性があり、様々な環境での利用が可能です。
🚀 クイックスタート
このセクションでは、Mythalion 13B - GGUFモデルの基本的な使い方を説明します。
モデルのダウンロード
モデルをダウンロードする方法はいくつかあります。以下にいくつかの例を示します。
LM Studio、LoLLMS Web UI、Faraday.devを使用する場合
これらのクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。
text-generation-webui
を使用する場合
Download Model
の下に、モデルのリポジトリTheBloke/Mythalion-13B-GGUF
を入力します。- その下に、ダウンロードする特定のファイル名(例:
mythalion-13b.q4_K_M.gguf
)を入力します。 Download
をクリックします。
コマンドラインでのダウンロード
huggingface-hub
Pythonライブラリを使用することをおすすめします。
pip3 install huggingface-hub>=0.17.1
次に、以下のコマンドで任意のモデルファイルを高速でダウンロードできます。
huggingface-cli download TheBloke/Mythalion-13B-GGUF mythalion-13b.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
モデルの実行
llama.cpp
での実行
以下のコマンドを使用して、llama.cpp
でモデルを実行できます。
./main -ngl 32 -m mythalion-13b.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{prompt}\n\n### Response:"
-ngl 32
は、GPUにオフロードするレイヤー数を指定します。GPUアクセラレーションがない場合は削除してください。-c 4096
は、希望するシーケンス長を指定します。拡張シーケンスモデル(例:8K、16K、32K)の場合、必要なRoPEスケーリングパラメータはGGUFファイルから読み取られ、llama.cpp
によって自動的に設定されます。- チャットスタイルの会話を行いたい場合は、
-p <PROMPT>
引数を-i -ins
に置き換えてください。
text-generation-webui
での実行
詳細な手順は、text-generation-webui/docs/llama.cpp.md を参照してください。
Pythonコードからの実行
llama-cpp-python
または ctransformers
ライブラリを使用して、PythonからGGUFモデルを使用できます。
ctransformers
を使用してモデルをロードする
まず、パッケージをインストールします。
# GPUアクセラレーションなしの基本的なctransformers
pip install ctransformers>=0.2.24
# またはCUDA GPUアクセラレーション付き
pip install ctransformers[cuda]>=0.2.24
# またはROCm GPUアクセラレーション付き
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# またはmacOSシステムのMetal GPUアクセラレーション付き
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
次に、以下のコードでモデルをロードします。
from ctransformers import AutoModelForCausalLM
# gpu_layersを、GPUにオフロードするレイヤー数に設定します。システムでGPUアクセラレーションが利用できない場合は0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Mythalion-13B-GGUF", model_file="mythalion-13b.q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
✨ 主な機能
- 多様なデータセットでの訓練:PygmalionAI/PIPPA、Open-Orca/OpenOrca、Norquinal/claude_multiround_chat_30kなど、多様なデータセットで訓練されています。
- GGUF形式のサポート:GGUF形式で提供されるため、多くのクライアントやライブラリと互換性があります。
- 多様な量子化方法:Q2_K、Q3_K_S、Q4_K_Mなど、多様な量子化方法が提供されています。
📦 インストール
必要なライブラリのインストール
モデルを使用するために必要なライブラリをインストールします。
pip3 install huggingface-hub>=0.17.1
モデルのダウンロード
モデルをダウンロードするには、以下のコマンドを使用します。
huggingface-cli download TheBloke/Mythalion-13B-GGUF mythalion-13b.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
💻 使用例
基本的な使用法
from ctransformers import AutoModelForCausalLM
# gpu_layersを、GPUにオフロードするレイヤー数に設定します。システムでGPUアクセラレーションが利用できない場合は0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Mythalion-13B-GGUF", model_file="mythalion-13b.q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
高度な使用法
# 高度なシナリオでの使用例
# 例えば、特定のプロンプトを使用してモデルを実行する場合
prompt = "### Instruction:\nDescribe the future of AI.\n### Response:"
print(llm(prompt))
📚 ドキュメント
モデルの詳細情報
属性 | 详情 |
---|---|
モデルタイプ | llama |
訓練データ | PygmalionAI/PIPPA、Open-Orca/OpenOrca、Norquinal/claude_multiround_chat_30k、jondurbin/airoboros-gpt4-1.4.1、databricks/databricks-dolly-15k |
モデル作成者 | PygmalionAI |
ベースモデル | PygmalionAI/mythalion-13b |
推論 | false |
パイプラインタグ | text-generation |
プロンプトテンプレート | 'Below is an instruction that describes a task. Write a response that appropriately completes the request. ### Instruction: {prompt} ### Response: ' |
量子化担当者 | TheBloke |
GGUF形式について
GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式です。GGMLの代替となる形式で、現在はllama.cppではGGMLがサポートされなくなっています。GGUFは、GGMLに比べて多くの利点があり、より良いトークン化や特殊トークンのサポート、メタデータのサポートなどがあり、拡張性も考慮されています。
以下は、GGUFをサポートすることが知られているクライアントやライブラリの不完全なリストです。
- llama.cpp:GGUFのソースプロジェクトで、CLIとサーバーオプションを提供します。
- text-generation-webui:最も広く使用されているWeb UIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションに対応しています。
- KoboldCpp:完全な機能を備えたWeb UIで、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションに対応しています。特にストーリーテリングに適しています。
- LM Studio:WindowsとmacOS(Silicon)用の使いやすく強力なローカルGUIで、GPUアクセラレーションに対応しています。
- LoLLMS Web UI:多くの興味深い独自の機能を備えた素晴らしいWeb UIで、簡単なモデル選択のための完全なモデルライブラリも備えています。
- Faraday.dev:WindowsとmacOS(SiliconとIntelの両方)用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションに対応しています。
- ctransformers:GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリです。
- llama-cpp-python:GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリです。
- candle:パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートと使いやすさを備えています。
量子化方法の説明
詳細を表示するにはクリックしてください
利用可能な新しい方法は以下の通りです。
- GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロック内の「タイプ1」2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、重みあたり実効的に2.5625ビット(bpw)が使用されます。
- GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロック内の「タイプ0」3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375 bpwが使用されます。
- GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロック内の「タイプ1」4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5 bpwが使用されます。
- GGML_TYPE_Q5_K - 「タイプ1」5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5 bpwになります。
- GGML_TYPE_Q6_K - 「タイプ0」6ビット量子化。16個のブロックを含むスーパーブロック。各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625 bpwが使用されます。
使用されている方法とその使用方法については、以下の提供ファイル表を参照してください。
提供されるファイル
名前 | 量子化方法 | ビット数 | サイズ | 必要な最大RAM | 使用ケース |
---|---|---|---|---|---|
mythalion-13b.Q2_K.gguf | Q2_K | 2 | 5.43 GB | 7.93 GB | 最も小さいが、品質が大幅に低下する - ほとんどの目的には推奨されない |
mythalion-13b.Q3_K_S.gguf | Q3_K_S | 3 | 5.66 GB | 8.16 GB | 非常に小さいが、品質が大きく低下する |
mythalion-13b.Q3_K_M.gguf | Q3_K_M | 3 | 6.34 GB | 8.84 GB | 非常に小さいが、品質が大きく低下する |
mythalion-13b.Q3_K_L.gguf | Q3_K_L | 3 | 6.93 GB | 9.43 GB | 小さいが、品質が大幅に低下する |
mythalion-13b.Q4_0.gguf | Q4_0 | 4 | 7.37 GB | 9.87 GB | レガシー; 小さいが、品質が非常に大きく低下する - Q3_K_Mの使用を推奨 |
mythalion-13b.Q4_K_S.gguf | Q4_K_S | 4 | 7.41 GB | 9.91 GB | 小さいが、品質が大きく低下する |
mythalion-13b.Q4_K_M.gguf | Q4_K_M | 4 | 7.87 GB | 10.37 GB | 中程度で、バランスの良い品質 - 推奨 |
mythalion-13b.Q5_0.gguf | Q5_0 | 5 | 8.97 GB | 11.47 GB | レガシー; 中程度で、バランスの良い品質 - Q4_K_Mの使用を推奨 |
mythalion-13b.Q5_K_S.gguf | Q5_K_S | 5 | 8.97 GB | 11.47 GB | 大きいが、品質の低下が少ない - 推奨 |
mythalion-13b.Q5_K_M.gguf | Q5_K_M | 5 | 9.23 GB | 11.73 GB | 大きいが、品質の低下が非常に少ない - 推奨 |
mythalion-13b.Q6_K.gguf | Q6_K | 6 | 10.68 GB | 13.18 GB | 非常に大きいが、品質の低下が極めて少ない |
mythalion-13b.Q8_0.gguf | Q8_0 | 8 | 13.83 GB | 16.33 GB | 非常に大きいが、品質の低下が極めて少ない - 推奨されない |
注: 上記のRAM数値は、GPUオフロードがないことを前提としています。レイヤーをGPUにオフロードすると、RAM使用量が減少し、代わりにVRAMが使用されます。
モデルの使用方法
LangChainとの連携
以下は、llama-cpp-python
または ctransformers
をLangChainと連携させるガイドです。
🔧 技術詳細
このモデルは、llamaベースのアーキテクチャを使用しています。多様なデータセットで訓練され、量子化方法によって異なるサイズと品質のモデルが提供されています。GGUF形式を使用することで、多くのクライアントやライブラリとの互換性が確保されています。
📄 ライセンス
このモデルは、llama2ライセンスの下で提供されています。



