Mythalion-13B-GGUFオープンソース大規模言語モデル - 無料でテキスト生成と指令追従を実現

ホーム

Mythalion 13B GGUF

TheBlokeによって開発

Mythalion 13BはPygmalionAIが開発した13Bパラメータ規模の大規模言語モデルで、Llamaアーキテクチャを基盤としており、テキスト生成と命令追従タスクに特化しています。

大規模言語モデル英語#マルチターン対話最適化 #ロールプレイ専用 #命令追従型

ダウンロード数 2,609

リリース時間 : 9/5/2023

モデル概要

これは13Bパラメータ規模の命令追従型大規模言語モデルで、英文テキスト生成をサポートし、対話、創作、Q&Aなど様々なシナリオに適しています。

モデル特徴

マルチデータセット訓練

PIPPA、OpenOrcaなど複数の高品質データセットを統合して訓練

命令追従

ユーザーの命令を理解し実行するために特別に最適化

量子化サポート

様々な量子化バージョンを提供し、異なるハードウェア要件に対応

モデル能力

テキスト生成

命令理解

マルチターン対話

ストーリー創作

Q&Aシステム

使用事例

クリエイティブライティング

ストーリー生成

ユーザーのプロンプトに基づいて一貫性のあるストーリー内容を生成

対話システム

ロールプレイ対話

特定のキャラクターの会話スタイルや行動パターンを模倣

🚀 Mythalion 13B - GGUF

このモデルは、テキスト生成タスクに特化した高性能な言語モデルです。PygmalionAIによって開発され、多様なデータセットで訓練されています。GGUF形式で提供されるこのモデルは、多くのクライアントやライブラリと互換性があり、様々な環境での利用が可能です。

🚀 クイックスタート

このセクションでは、Mythalion 13B - GGUFモデルの基本的な使い方を説明します。

モデルのダウンロード

モデルをダウンロードする方法はいくつかあります。以下にいくつかの例を示します。

LM Studio、LoLLMS Web UI、Faraday.devを使用する場合

これらのクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。

`text-generation-webui`を使用する場合

Download Modelの下に、モデルのリポジトリ TheBloke/Mythalion-13B-GGUF を入力します。
その下に、ダウンロードする特定のファイル名（例：mythalion-13b.q4_K_M.gguf）を入力します。
Downloadをクリックします。

コマンドラインでのダウンロード

huggingface-hub Pythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub>=0.17.1

次に、以下のコマンドで任意のモデルファイルを高速でダウンロードできます。

huggingface-cli download TheBloke/Mythalion-13B-GGUF mythalion-13b.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

モデルの実行

`llama.cpp`での実行

以下のコマンドを使用して、llama.cpp でモデルを実行できます。

./main -ngl 32 -m mythalion-13b.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{prompt}\n\n### Response:"

-ngl 32 は、GPUにオフロードするレイヤー数を指定します。GPUアクセラレーションがない場合は削除してください。
-c 4096 は、希望するシーケンス長を指定します。拡張シーケンスモデル（例：8K、16K、32K）の場合、必要なRoPEスケーリングパラメータはGGUFファイルから読み取られ、llama.cpp によって自動的に設定されます。
チャットスタイルの会話を行いたい場合は、-p <PROMPT> 引数を -i -ins に置き換えてください。

`text-generation-webui`での実行

詳細な手順は、text-generation-webui/docs/llama.cpp.md を参照してください。

Pythonコードからの実行

llama-cpp-python または ctransformers ライブラリを使用して、PythonからGGUFモデルを使用できます。

`ctransformers`を使用してモデルをロードする

まず、パッケージをインストールします。

# GPUアクセラレーションなしの基本的なctransformers
pip install ctransformers>=0.2.24
# またはCUDA GPUアクセラレーション付き
pip install ctransformers[cuda]>=0.2.24
# またはROCm GPUアクセラレーション付き
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# またはmacOSシステムのMetal GPUアクセラレーション付き
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

次に、以下のコードでモデルをロードします。

from ctransformers import AutoModelForCausalLM

# gpu_layersを、GPUにオフロードするレイヤー数に設定します。システムでGPUアクセラレーションが利用できない場合は0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Mythalion-13B-GGUF", model_file="mythalion-13b.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

✨ 主な機能

多様なデータセットでの訓練：PygmalionAI/PIPPA、Open-Orca/OpenOrca、Norquinal/claude_multiround_chat_30kなど、多様なデータセットで訓練されています。
GGUF形式のサポート：GGUF形式で提供されるため、多くのクライアントやライブラリと互換性があります。
多様な量子化方法：Q2_K、Q3_K_S、Q4_K_Mなど、多様な量子化方法が提供されています。

📦 インストール

必要なライブラリのインストール

モデルを使用するために必要なライブラリをインストールします。

pip3 install huggingface-hub>=0.17.1

モデルのダウンロード

モデルをダウンロードするには、以下のコマンドを使用します。

huggingface-cli download TheBloke/Mythalion-13B-GGUF mythalion-13b.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

💻 使用例

基本的な使用法

from ctransformers import AutoModelForCausalLM

# gpu_layersを、GPUにオフロードするレイヤー数に設定します。システムでGPUアクセラレーションが利用できない場合は0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Mythalion-13B-GGUF", model_file="mythalion-13b.q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

高度な使用法

# 高度なシナリオでの使用例
# 例えば、特定のプロンプトを使用してモデルを実行する場合
prompt = "### Instruction:\nDescribe the future of AI.\n### Response:"
print(llm(prompt))

📚 ドキュメント

モデルの詳細情報

属性	详情
モデルタイプ	llama
訓練データ	PygmalionAI/PIPPA、Open-Orca/OpenOrca、Norquinal/claude_multiround_chat_30k、jondurbin/airoboros-gpt4-1.4.1、databricks/databricks-dolly-15k
モデル作成者	PygmalionAI
ベースモデル	PygmalionAI/mythalion-13b
推論	false
パイプラインタグ	text-generation
プロンプトテンプレート	'Below is an instruction that describes a task. Write a response that appropriately completes the request. ### Instruction: {prompt} ### Response: '
量子化担当者	TheBloke

GGUF形式について

GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式です。GGMLの代替となる形式で、現在はllama.cppではGGMLがサポートされなくなっています。GGUFは、GGMLに比べて多くの利点があり、より良いトークン化や特殊トークンのサポート、メタデータのサポートなどがあり、拡張性も考慮されています。

以下は、GGUFをサポートすることが知られているクライアントやライブラリの不完全なリストです。

llama.cpp：GGUFのソースプロジェクトで、CLIとサーバーオプションを提供します。
text-generation-webui：最も広く使用されているWeb UIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションに対応しています。
KoboldCpp：完全な機能を備えたWeb UIで、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションに対応しています。特にストーリーテリングに適しています。
LM Studio：WindowsとmacOS（Silicon）用の使いやすく強力なローカルGUIで、GPUアクセラレーションに対応しています。
LoLLMS Web UI：多くの興味深い独自の機能を備えた素晴らしいWeb UIで、簡単なモデル選択のための完全なモデルライブラリも備えています。
Faraday.dev：WindowsとmacOS（SiliconとIntelの両方）用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションに対応しています。
ctransformers：GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリです。
llama-cpp-python：GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリです。
candle：パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートと使いやすさを備えています。

量子化方法の説明

詳細を表示するにはクリックしてください

利用可能な新しい方法は以下の通りです。

GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロック内の「タイプ1」2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、重みあたり実効的に2.5625ビット（bpw）が使用されます。
GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロック内の「タイプ0」3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375 bpwが使用されます。
GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロック内の「タイプ1」4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5 bpwが使用されます。
GGML_TYPE_Q5_K - 「タイプ1」5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5 bpwになります。
GGML_TYPE_Q6_K - 「タイプ0」6ビット量子化。16個のブロックを含むスーパーブロック。各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625 bpwが使用されます。

使用されている方法とその使用方法については、以下の提供ファイル表を参照してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	必要な最大RAM	使用ケース
mythalion-13b.Q2_K.gguf	Q2_K	2	5.43 GB	7.93 GB	最も小さいが、品質が大幅に低下する - ほとんどの目的には推奨されない
mythalion-13b.Q3_K_S.gguf	Q3_K_S	3	5.66 GB	8.16 GB	非常に小さいが、品質が大きく低下する
mythalion-13b.Q3_K_M.gguf	Q3_K_M	3	6.34 GB	8.84 GB	非常に小さいが、品質が大きく低下する
mythalion-13b.Q3_K_L.gguf	Q3_K_L	3	6.93 GB	9.43 GB	小さいが、品質が大幅に低下する
mythalion-13b.Q4_0.gguf	Q4_0	4	7.37 GB	9.87 GB	レガシー; 小さいが、品質が非常に大きく低下する - Q3_K_Mの使用を推奨
mythalion-13b.Q4_K_S.gguf	Q4_K_S	4	7.41 GB	9.91 GB	小さいが、品質が大きく低下する
mythalion-13b.Q4_K_M.gguf	Q4_K_M	4	7.87 GB	10.37 GB	中程度で、バランスの良い品質 - 推奨
mythalion-13b.Q5_0.gguf	Q5_0	5	8.97 GB	11.47 GB	レガシー; 中程度で、バランスの良い品質 - Q4_K_Mの使用を推奨
mythalion-13b.Q5_K_S.gguf	Q5_K_S	5	8.97 GB	11.47 GB	大きいが、品質の低下が少ない - 推奨
mythalion-13b.Q5_K_M.gguf	Q5_K_M	5	9.23 GB	11.73 GB	大きいが、品質の低下が非常に少ない - 推奨
mythalion-13b.Q6_K.gguf	Q6_K	6	10.68 GB	13.18 GB	非常に大きいが、品質の低下が極めて少ない
mythalion-13b.Q8_0.gguf	Q8_0	8	13.83 GB	16.33 GB	非常に大きいが、品質の低下が極めて少ない - 推奨されない