モデル概要
モデル特徴
モデル能力
使用事例
🚀 Manticore 13B Chat Pyg
本プロジェクトでは、Manticore 13B Chat Pyg モデルの GGUF 形式のファイルを提供しており、ユーザーがテキスト生成に関連する推論タスクを行いやすくなっています。このモデルは特定のデータセットを基に訓練されており、様々なクライアントやライブラリで良好にサポートされています。
🚀 クイックスタート
このリポジトリには、Open Access AI Collective の Manticore 13B Chat Pyg モデルの GGUF 形式のファイルが含まれています。
✨ 主な機能
- 新形式のサポート:2023 年 8 月 21 日に llama.cpp チームが導入した新しい GGUF 形式を採用し、サポートが終了した GGML 形式に代わります。
- 多くのクライアントと互換性:llama.cpp、text-generation-webui、KoboldCpp など、多数のクライアントやライブラリと互換性があり、さまざまなユーザーのニーズに対応します。
- 複数の量子化方法:複数の量子化方法を提供しており、使用シーンやハードウェア条件に応じて適切な量子化ファイルを選択でき、モデルのサイズと品質のバランスを取ることができます。
📦 インストール
GGUF ファイルのダウンロード
- 自動ダウンロード:LM Studio、LoLLMS Web UI、Faraday.dev などのクライアント/ライブラリは、自動的にモデルをダウンロードし、利用可能なモデルのリストを表示します。
- text-generation-webui でのダウンロード:Download Model の下で、モデルのリポジトリアドレス TheBloke/manticore-13b-chat-pyg-GGUF と、具体的にダウンロードするファイル名(例:manticore-13b-chat-pyg.Q4_K_M.gguf)を入力し、Download をクリックします。
- コマンドラインでのダウンロード:
huggingface-hub
Python ライブラリを使用することをおすすめします。
単一のモデルファイルを現在のディレクトリにダウンロードするには、以下のコマンドを使用します。pip3 install huggingface-hub
複数のファイルを同時にダウンロードするには、パターンマッチングを使用します。huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF manticore-13b-chat-pyg.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
高速接続(1Gbit/s 以上)でのダウンロードを高速化するには、huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
hf_transfer
をインストールします。
そして、環境変数pip3 install hf_transfer
HF_HUB_ENABLE_HF_TRANSFER
を1
に設定します。
Windows コマンドラインユーザーは、ダウンロードコマンドの前にHF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF manticore-13b-chat-pyg.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
set HF_HUB_ENABLE_HF_TRANSFER=1
を実行して環境変数を設定します。
💻 使用例
基本的な使用法
llama.cpp コマンドの例
d0cee0d 以降のバージョンの llama.cpp
を使用してください。
./main -ngl 32 -m manticore-13b-chat-pyg.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"
-ngl 32
:GPU にオフロードするレイヤー数に変更します。GPU 加速がない場合は、このパラメーターを削除します。-c 2048
:必要なシーケンス長に変更します。拡張シーケンスモデル(8K、16K、32K など)の場合、必要な RoPE スケーリングパラメーターは GGUF ファイルから読み取られ、llama.cpp によって自動的に設定されます。- チャット形式の対話を行う場合は、
-p <PROMPT>
パラメーターを-i -ins
に置き換えます。 その他のパラメーターと使用方法については、llama.cpp ドキュメント を参照してください。
text-generation-webui での実行
詳細な説明は、text-generation-webui/docs/llama.cpp.md を参照してください。
Python コードからの実行
llama-cpp-python または ctransformers ライブラリを使用して、Python から GGUF モデルを使用できます。
ctransformers を使用したモデルの読み込み
まず、システムに応じて以下のコマンドのいずれかを実行してパッケージをインストールします。
# GPU 加速なしの基本的な ctransformers
pip install ctransformers
# または CUDA GPU 加速を使用
pip install ctransformers[cuda]
# または AMD ROCm GPU 加速を使用(Linux のみ)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# または macOS システムの Metal GPU 加速を使用
CT_METAL=1 pip install ctransformers --no-binary ctransformers
簡単な ctransformers のサンプルコード:
from ctransformers import AutoModelForCausalLM
# gpu_layers を GPU にオフロードするレイヤー数に設定します。システムに GPU 加速がない場合は 0 に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/manticore-13b-chat-pyg-GGUF", model_file="manticore-13b-chat-pyg.Q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
高度な使用法
LangChain との組み合わせ
以下は、llama-cpp-python と ctransformers を LangChain と組み合わせるガイドです。
📚 ドキュメント
GGUF について
GGUF は、2023 年 8 月 21 日に llama.cpp チームが導入した新しい形式で、llama.cpp でサポートされなくなった GGML 形式に代わります。
GGUF をサポートする既知のクライアントとライブラリの不完全なリストは以下の通りです。
- llama.cpp:GGUF のソースプロジェクトで、CLI とサーバーオプションを提供します。
- text-generation-webui:最も広く使用されている Web UI で、多くの機能と強力な拡張機能を備え、GPU 加速をサポートしています。
- KoboldCpp:機能豊富な Web UI で、すべてのプラットフォームと GPU アーキテクチャでの GPU 加速をサポートしており、特にストーリーテリングに適しています。
- LM Studio:Windows と macOS(Silicon)に適した使いやすく強力なローカル GUI で、GPU 加速をサポートしています。
- LoLLMS Web UI:多くの面白く独特な機能を備えた素晴らしい Web UI で、完全なモデルライブラリを含み、モデルの選択が容易です。
- Faraday.dev:魅力的で使いやすいロールベースのチャット GUI で、Windows と macOS(Silicon と Intel)に対応し、GPU 加速をサポートしています。
- ctransformers:GPU 加速、LangChain、OpenAI 互換の AI サーバーをサポートする Python ライブラリです。
- llama-cpp-python:GPU 加速、LangChain、OpenAI 互換の API サーバーをサポートする Python ライブラリです。
- candle:パフォーマンスに重点を置いた Rust ML フレームワークで、GPU サポートを備え、使いやすいです。
利用可能なリポジトリ
- GPU 推論用の AWQ モデル。
- 複数の量子化パラメーターオプションを持つ GPU 推論用の GPTQ モデル。
- CPU+GPU 推論用の 2、3、4、5、6、および 8 ビットの GGUF モデル。
- GPU 推論とさらなる変換用の Open Access AI Collective の元の未量子化の fp16 形式の PyTorch モデル。
プロンプトテンプレート
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:
互換性
これらの量子化された GGUFv2 ファイルは、2023 年 8 月 27 日以降の llama.cpp バージョンと互換性があり、対応するコミットは d0cee0d です。
また、多くのサードパーティの UI やライブラリとも互換性があります - この README の上部のリストを参照してください。
量子化方法の説明
詳細を表示するにはクリックしてください
新しい利用可能な方法は以下の通りです。
- GGML_TYPE_Q2_K - “タイプ 1” 2 ビット量子化。スーパーブロックには 16 個のブロックが含まれ、各ブロックには 16 個の重みがあります。ブロックのスケールと最小値は 4 ビットで量子化され、最終的に各重みには 2.5625 ビット(bpw)が有効に使用されます。
- GGML_TYPE_Q3_K - “タイプ 0” 3 ビット量子化。スーパーブロックには 16 個のブロックが含まれ、各ブロックには 16 個の重みがあります。スケールは 6 ビットで量子化され、最終的に 3.4375 bpw が使用されます。
- GGML_TYPE_Q4_K - “タイプ 1” 4 ビット量子化。スーパーブロックには 8 個のブロックが含まれ、各ブロックには 32 個の重みがあります。スケールと最小値は 6 ビットで量子化され、最終的に 4.5 bpw が使用されます。
- GGML_TYPE_Q5_K - “タイプ 1” 5 ビット量子化。GGML_TYPE_Q4_K と同じスーパーブロック構造を持ち、最終的に 5.5 bpw が使用されます。
- GGML_TYPE_Q6_K - “タイプ 0” 6 ビット量子化。スーパーブロックには 16 個のブロックが含まれ、各ブロックには 16 個の重みがあります。スケールは 8 ビットで量子化され、最終的に 6.5625 bpw が使用されます。
どのファイルがどの方法を使用しているか、およびどのように使用するかについては、以下の提供ファイル表を参照してください。
提供されるファイル
名前 | 量子化方法 | ビット数 | サイズ | 必要な最大 RAM | 使用シーン |
---|---|---|---|---|---|
manticore-13b-chat-pyg.Q2_K.gguf | Q2_K | 2 | 5.43 GB | 7.93 GB | 最小ですが、品質が著しく低下します。ほとんどの場合、推奨されません。 |
manticore-13b-chat-pyg.Q3_K_S.gguf | Q3_K_S | 3 | 5.66 GB | 8.16 GB | 非常に小さいですが、品質がかなり低下します。 |
manticore-13b-chat-pyg.Q3_K_M.gguf | Q3_K_M | 3 | 6.34 GB | 8.84 GB | 小さいですが、品質が大きく低下します。 |
manticore-13b-chat-pyg.Q3_K_L.gguf | Q3_K_L | 3 | 6.93 GB | 9.43 GB | 小さいですが、品質が大きく低下します。 |
manticore-13b-chat-pyg.Q4_0.gguf | Q4_0 | 4 | 7.37 GB | 9.87 GB | 旧バージョンです。小さいですが、品質が非常に低下します。Q3_K_M の使用をおすすめします。 |
manticore-13b-chat-pyg.Q4_K_S.gguf | Q4_K_S | 4 | 7.41 GB | 9.91 GB | 小さいですが、品質が大きく低下します。 |
manticore-13b-chat-pyg.Q4_K_M.gguf | Q4_K_M | 4 | 7.87 GB | 10.37 GB | 中程度で、品質のバランスが取れています。推奨されます。 |
manticore-13b-chat-pyg.Q5_0.gguf | Q5_0 | 5 | 8.97 GB | 11.47 GB | 旧バージョンです。中程度で、品質のバランスが取れています。Q4_K_M の使用をおすすめします。 |
manticore-13b-chat-pyg.Q5_K_S.gguf | Q5_K_S | 5 | 8.97 GB | 11.47 GB | 大きいですが、品質の低下が少ないです。推奨されます。 |
manticore-13b-chat-pyg.Q5_K_M.gguf | Q5_K_M | 5 | 9.23 GB | 11.73 GB | 大きいですが、品質の低下が非常に少ないです。推奨されます。 |
manticore-13b-chat-pyg.Q6_K.gguf | Q6_K | 6 | 10.68 GB | 13.18 GB | 非常に大きいですが、品質の低下がほとんどありません。 |
manticore-13b-chat-pyg.Q8_0.gguf | Q8_0 | 8 | 13.83 GB | 16.33 GB | 非常に大きいですが、品質の低下がほとんどありません。推奨されません。 |
注意:上記の RAM の数値は、GPU オフロードがないことを前提としています。レイヤーを GPU にオフロードすると、これにより RAM 使用量が減少し、代わりに VRAM が使用されます。
🔧 技術詳細
モデルの訓練
Manticore 13B Chat は、Llama 13B モデルを以下のデータセットでファインチューニングしたもので、元の Manticore 13B のデータセットも含まれています。
Manticore 13B Chat は、以下のデータセットの 25% で訓練されています。これらのデータセットは、結合、シャッフルされ、4 つの部分に分割されます。
- 重複を削除した Pygmalion データセット。ロールプレイング(RP)データにフィルタリングされています。
- riddle_sense - 命令強化
- hellaswag。詳細な説明を含むように更新され、30K 行以上になっています。
- gsm8k - 命令強化
- ewof/code-alpaca-instruct-unfiltered
Manticore 13B
- ShareGPT - クリーニングと重複削除されたサブセットに基づく
- WizardLM
- Wizard-Vicuna
- QingyiSi/Alpaca-CoT のロールプレイングと思考連鎖(CoT)用のサブセット
- GPT4-LLM-Cleaned
- GPTeacher-General-Instruct
- ARC-Easy と ARC-Challenge - 詳細な応答を得るために命令強化されており、
train
分割に由来します。 - hellaswag - 5K 行のサブセット。簡潔な応答を得るために命令強化されており、
train
分割に由来します。 - metaeval/ScienceQA_text_only - 命令強化
📄 ライセンス
このプロジェクトは、他のライセンスを使用しています。
その他の情報
Discord
さらなるサポートや、これらのモデルと一般的な AI に関する議論に参加するには、TheBloke AI の Discord サーバー に参加してください。
感謝と貢献
chirper.ai チームに感謝します!
gpus.llm-utils.org の Clay に感謝します!
多くの人から貢献の可否を尋ねられています。私はモデルを提供し、他人を助けることが好きで、これらのことにもっと時間を費やし、ファインチューニング/トレーニングなどの新しいプロジェクトにも展開したいと思っています。
貢献できる能力と意欲がある場合は、大いに感謝します。これにより、私がさらに多くのモデルを提供し、新しい AI プロジェクトを開始するのに役立ちます。
寄付者は、AI/LLM/モデルに関するすべての質問やリクエストに対して優先的なサポートを受け、プライベートな Discord ルームへのアクセスや、その他の特典を享受できます。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別な感謝:Aemon Algiz。
Patreon での特別な言及:Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbius、Erik Bjäreholt、Luis Javier Navarrete Lozano、Nicholas、theTransient、John Detwiler、alfie_i、knownsqashed、Mano Prime、Willem Michiel、Enrico Ros、LangChain4j、OG、Michael Dempsey、Pierre Kircher、Pedro Madruga、James Bentley、Thomas Belote、Luke @flexchar、Leonard Tan、Johann-Peter Hartmann、Illia Dulskyi、Fen Risland、Chadd、S_X、Jeff Scroggin、Ken Nordquist、Sean Connelly、Artur Olbinski、Swaroop Kallakuri、Jack West、Ai Maven、David Ziegler、Russ Johnson、transmissions 11、John Villwock、Alps Aficionado、Clay Pascal、Viktor Bowallius、Subspace Studios、Rainer Wilmers、Trenton Dambrowitz、vamX、Michael Levine、준교 김、Brandon Frisco、Kalila、Trailburnt、Randy H、Talal Aujan、Nathan Dryer、Vadim、阿明、ReadyPlayerEmma、Tiffany J. Kim、George Stoitzev、Spencer Kim、Jerry Meng、Gabriel Tamborski、Cory Kujawski、Jeffrey Morgan、Spiking Neurons AB、Edmond Seymore、Alexandros Triantafyllidis、Lone Striker、Cap'n Zoog、Nikolai Manek、danny、ya boyyy、Derek Yates、usrbinkat、Mandus、TL、Nathan LeClaire、subjectnull、Imad Khwaja、webtim、Raven Klaugh、Asp the Wyvern、Gabriel Puliatti、Caitlyn Gatomon、Joseph William Delisle、Jonathan Leane、Luke Pendergrass、SuperWojo、Sebastain Graf、Will Dee、Fred von Graf、Andrey、Dan Guido、Daniel P. Andersen、Nitin Borwankar、Elle、Vitor Caleffi、biorpg、jjj、NimbleBox.ai、Pieter、Matthew Berman、terasurfer、Michael Davis、Alex、Stanislav Ovsiannikov
すべての寛大なスポンサーと寄付者に感謝します!
再び、a16z の寛大な支援に感謝します。



