Manticore 13B Chat Pygオープンソースチャットモデル - 複数のハードウェアとクライアントに対応し、無料で利用可能

ホーム

Manticore 13b Chat Pyg GGUF

TheBlokeによって開発

Manticore 13B Chat PygはLlama 13Bモデルを微調整したチャットモデルで、複数のクライアントとライブラリをサポートし、さまざまなハードウェア条件に適応するための複数の量子化方法を提供します。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #ロールプレイングダイアログ #多輪質問応答の最適化 #低リソース推論

ダウンロード数 327

リリース時間 : 9/20/2023

モデル概要

このモデルは13Bパラメータのチャットモデルで、特定のデータセットを基にトレーニングされ、テキスト生成タスクをサポートし、複数の推論ツールとライブラリと互換性があります。

モデル特徴

GGUF形式サポート

最新のGGUF形式を採用し、サポートが終了したGGML形式に代わり、より良い互換性とパフォーマンスを提供します。

複数のクライアントとの互換性

llama.cpp、text - generation - webui、KoboldCppなどの複数のクライアントとライブラリと互換性があり、さまざまなユーザーのニーズを満たします。

複数の量子化方法

複数の量子化方法を提供し、さまざまな使用シーンとハードウェア条件に応じて適切な量子化ファイルを選択でき、モデルのサイズと品質のバランスを取ることができます。

モデル能力

テキスト生成

チャットダイアログ

命令強化

使用事例

チャットボット

スマートアシスタント

スマートアシスタントを構築するために使用し、詳細で礼儀正しい回答を提供します。

教育

問題解決支援

数学や科学の問題を解くために使用し、詳細な説明を提供します。

🚀 Manticore 13B Chat Pyg

本プロジェクトでは、Manticore 13B Chat Pyg モデルの GGUF 形式のファイルを提供しており、ユーザーがテキスト生成に関連する推論タスクを行いやすくなっています。このモデルは特定のデータセットを基に訓練されており、様々なクライアントやライブラリで良好にサポートされています。

🚀 クイックスタート

このリポジトリには、Open Access AI Collective の Manticore 13B Chat Pyg モデルの GGUF 形式のファイルが含まれています。

✨ 主な機能

新形式のサポート：2023 年 8 月 21 日に llama.cpp チームが導入した新しい GGUF 形式を採用し、サポートが終了した GGML 形式に代わります。
多くのクライアントと互換性：llama.cpp、text-generation-webui、KoboldCpp など、多数のクライアントやライブラリと互換性があり、さまざまなユーザーのニーズに対応します。
複数の量子化方法：複数の量子化方法を提供しており、使用シーンやハードウェア条件に応じて適切な量子化ファイルを選択でき、モデルのサイズと品質のバランスを取ることができます。

📦 インストール

GGUF ファイルのダウンロード

自動ダウンロード：LM Studio、LoLLMS Web UI、Faraday.dev などのクライアント/ライブラリは、自動的にモデルをダウンロードし、利用可能なモデルのリストを表示します。
text-generation-webui でのダウンロード：Download Model の下で、モデルのリポジトリアドレス TheBloke/manticore-13b-chat-pyg-GGUF と、具体的にダウンロードするファイル名（例：manticore-13b-chat-pyg.Q4_K_M.gguf）を入力し、Download をクリックします。
コマンドラインでのダウンロード：huggingface-hub Python ライブラリを使用することをおすすめします。
```
pip3 install huggingface-hub
```
単一のモデルファイルを現在のディレクトリにダウンロードするには、以下のコマンドを使用します。
```
huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF manticore-13b-chat-pyg.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
```
複数のファイルを同時にダウンロードするには、パターンマッチングを使用します。
```
huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
```
高速接続（1Gbit/s 以上）でのダウンロードを高速化するには、hf_transfer をインストールします。
```
pip3 install hf_transfer
```
そして、環境変数 HF_HUB_ENABLE_HF_TRANSFER を 1 に設定します。
```
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/manticore-13b-chat-pyg-GGUF manticore-13b-chat-pyg.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
```
Windows コマンドラインユーザーは、ダウンロードコマンドの前に set HF_HUB_ENABLE_HF_TRANSFER=1 を実行して環境変数を設定します。

💻 使用例

基本的な使用法

llama.cpp コマンドの例

d0cee0d 以降のバージョンの llama.cpp を使用してください。

./main -ngl 32 -m manticore-13b-chat-pyg.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"

-ngl 32：GPU にオフロードするレイヤー数に変更します。GPU 加速がない場合は、このパラメーターを削除します。
-c 2048：必要なシーケンス長に変更します。拡張シーケンスモデル（8K、16K、32K など）の場合、必要な RoPE スケーリングパラメーターは GGUF ファイルから読み取られ、llama.cpp によって自動的に設定されます。
チャット形式の対話を行う場合は、-p <PROMPT> パラメーターを -i -ins に置き換えます。その他のパラメーターと使用方法については、llama.cpp ドキュメントを参照してください。

text-generation-webui での実行

詳細な説明は、text-generation-webui/docs/llama.cpp.md を参照してください。

Python コードからの実行

llama-cpp-python または ctransformers ライブラリを使用して、Python から GGUF モデルを使用できます。

ctransformers を使用したモデルの読み込み

まず、システムに応じて以下のコマンドのいずれかを実行してパッケージをインストールします。

# GPU 加速なしの基本的な ctransformers
pip install ctransformers
# または CUDA GPU 加速を使用
pip install ctransformers[cuda]
# または AMD ROCm GPU 加速を使用（Linux のみ）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# または macOS システムの Metal GPU 加速を使用
CT_METAL=1 pip install ctransformers --no-binary ctransformers

簡単な ctransformers のサンプルコード：

from ctransformers import AutoModelForCausalLM

# gpu_layers を GPU にオフロードするレイヤー数に設定します。システムに GPU 加速がない場合は 0 に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/manticore-13b-chat-pyg-GGUF", model_file="manticore-13b-chat-pyg.Q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

高度な使用法

LangChain との組み合わせ

以下は、llama-cpp-python と ctransformers を LangChain と組み合わせるガイドです。

📚 ドキュメント

GGUF について

GGUF は、2023 年 8 月 21 日に llama.cpp チームが導入した新しい形式で、llama.cpp でサポートされなくなった GGML 形式に代わります。

GGUF をサポートする既知のクライアントとライブラリの不完全なリストは以下の通りです。

llama.cpp：GGUF のソースプロジェクトで、CLI とサーバーオプションを提供します。
text-generation-webui：最も広く使用されている Web UI で、多くの機能と強力な拡張機能を備え、GPU 加速をサポートしています。
KoboldCpp：機能豊富な Web UI で、すべてのプラットフォームと GPU アーキテクチャでの GPU 加速をサポートしており、特にストーリーテリングに適しています。
LM Studio：Windows と macOS（Silicon）に適した使いやすく強力なローカル GUI で、GPU 加速をサポートしています。
LoLLMS Web UI：多くの面白く独特な機能を備えた素晴らしい Web UI で、完全なモデルライブラリを含み、モデルの選択が容易です。
Faraday.dev：魅力的で使いやすいロールベースのチャット GUI で、Windows と macOS（Silicon と Intel）に対応し、GPU 加速をサポートしています。
ctransformers：GPU 加速、LangChain、OpenAI 互換の AI サーバーをサポートする Python ライブラリです。
llama-cpp-python：GPU 加速、LangChain、OpenAI 互換の API サーバーをサポートする Python ライブラリです。
candle：パフォーマンスに重点を置いた Rust ML フレームワークで、GPU サポートを備え、使いやすいです。

利用可能なリポジトリ

プロンプトテンプレート

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:

互換性

これらの量子化された GGUFv2 ファイルは、2023 年 8 月 27 日以降の llama.cpp バージョンと互換性があり、対応するコミットは d0cee0d です。

また、多くのサードパーティの UI やライブラリとも互換性があります - この README の上部のリストを参照してください。

量子化方法の説明

詳細を表示するにはクリックしてください

新しい利用可能な方法は以下の通りです。

GGML_TYPE_Q2_K - “タイプ 1” 2 ビット量子化。スーパーブロックには 16 個のブロックが含まれ、各ブロックには 16 個の重みがあります。ブロックのスケールと最小値は 4 ビットで量子化され、最終的に各重みには 2.5625 ビット（bpw）が有効に使用されます。
GGML_TYPE_Q3_K - “タイプ 0” 3 ビット量子化。スーパーブロックには 16 個のブロックが含まれ、各ブロックには 16 個の重みがあります。スケールは 6 ビットで量子化され、最終的に 3.4375 bpw が使用されます。
GGML_TYPE_Q4_K - “タイプ 1” 4 ビット量子化。スーパーブロックには 8 個のブロックが含まれ、各ブロックには 32 個の重みがあります。スケールと最小値は 6 ビットで量子化され、最終的に 4.5 bpw が使用されます。
GGML_TYPE_Q5_K - “タイプ 1” 5 ビット量子化。GGML_TYPE_Q4_K と同じスーパーブロック構造を持ち、最終的に 5.5 bpw が使用されます。
GGML_TYPE_Q6_K - “タイプ 0” 6 ビット量子化。スーパーブロックには 16 個のブロックが含まれ、各ブロックには 16 個の重みがあります。スケールは 8 ビットで量子化され、最終的に 6.5625 bpw が使用されます。

どのファイルがどの方法を使用しているか、およびどのように使用するかについては、以下の提供ファイル表を参照してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	必要な最大 RAM	使用シーン
manticore-13b-chat-pyg.Q2_K.gguf	Q2_K	2	5.43 GB	7.93 GB	最小ですが、品質が著しく低下します。ほとんどの場合、推奨されません。
manticore-13b-chat-pyg.Q3_K_S.gguf	Q3_K_S	3	5.66 GB	8.16 GB	非常に小さいですが、品質がかなり低下します。
manticore-13b-chat-pyg.Q3_K_M.gguf	Q3_K_M	3	6.34 GB	8.84 GB	小さいですが、品質が大きく低下します。
manticore-13b-chat-pyg.Q3_K_L.gguf	Q3_K_L	3	6.93 GB	9.43 GB	小さいですが、品質が大きく低下します。
manticore-13b-chat-pyg.Q4_0.gguf	Q4_0	4	7.37 GB	9.87 GB	旧バージョンです。小さいですが、品質が非常に低下します。Q3_K_M の使用をおすすめします。
manticore-13b-chat-pyg.Q4_K_S.gguf	Q4_K_S	4	7.41 GB	9.91 GB	小さいですが、品質が大きく低下します。
manticore-13b-chat-pyg.Q4_K_M.gguf	Q4_K_M	4	7.87 GB	10.37 GB	中程度で、品質のバランスが取れています。推奨されます。
manticore-13b-chat-pyg.Q5_0.gguf	Q5_0	5	8.97 GB	11.47 GB	旧バージョンです。中程度で、品質のバランスが取れています。Q4_K_M の使用をおすすめします。
manticore-13b-chat-pyg.Q5_K_S.gguf	Q5_K_S	5	8.97 GB	11.47 GB	大きいですが、品質の低下が少ないです。推奨されます。
manticore-13b-chat-pyg.Q5_K_M.gguf	Q5_K_M	5	9.23 GB	11.73 GB	大きいですが、品質の低下が非常に少ないです。推奨されます。
manticore-13b-chat-pyg.Q6_K.gguf	Q6_K	6	10.68 GB	13.18 GB	非常に大きいですが、品質の低下がほとんどありません。
manticore-13b-chat-pyg.Q8_0.gguf	Q8_0	8	13.83 GB	16.33 GB	非常に大きいですが、品質の低下がほとんどありません。推奨されません。

注意：上記の RAM の数値は、GPU オフロードがないことを前提としています。レイヤーを GPU にオフロードすると、これにより RAM 使用量が減少し、代わりに VRAM が使用されます。

🔧 技術詳細

モデルの訓練

Manticore 13B Chat は、Llama 13B モデルを以下のデータセットでファインチューニングしたもので、元の Manticore 13B のデータセットも含まれています。

Manticore 13B Chat は、以下のデータセットの 25% で訓練されています。これらのデータセットは、結合、シャッフルされ、4 つの部分に分割されます。

重複を削除した Pygmalion データセット。ロールプレイング（RP）データにフィルタリングされています。
riddle_sense - 命令強化
hellaswag。詳細な説明を含むように更新され、30K 行以上になっています。
gsm8k - 命令強化
ewof/code-alpaca-instruct-unfiltered

Manticore 13B

ShareGPT - クリーニングと重複削除されたサブセットに基づく
WizardLM
Wizard-Vicuna
QingyiSi/Alpaca-CoT のロールプレイングと思考連鎖（CoT）用のサブセット
GPT4-LLM-Cleaned
GPTeacher-General-Instruct
ARC-Easy と ARC-Challenge - 詳細な応答を得るために命令強化されており、train 分割に由来します。
hellaswag - 5K 行のサブセット。簡潔な応答を得るために命令強化されており、train 分割に由来します。
metaeval/ScienceQA_text_only - 命令強化

📄 ライセンス

このプロジェクトは、他のライセンスを使用しています。

その他の情報

Discord

さらなるサポートや、これらのモデルと一般的な AI に関する議論に参加するには、TheBloke AI の Discord サーバーに参加してください。

感謝と貢献

chirper.ai チームに感謝します！

gpus.llm-utils.org の Clay に感謝します！

多くの人から貢献の可否を尋ねられています。私はモデルを提供し、他人を助けることが好きで、これらのことにもっと時間を費やし、ファインチューニング/トレーニングなどの新しいプロジェクトにも展開したいと思っています。

貢献できる能力と意欲がある場合は、大いに感謝します。これにより、私がさらに多くのモデルを提供し、新しい AI プロジェクトを開始するのに役立ちます。

寄付者は、AI/LLM/モデルに関するすべての質問やリクエストに対して優先的なサポートを受け、プライベートな Discord ルームへのアクセスや、その他の特典を享受できます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝：Aemon Algiz。

Patreon での特別な言及：Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbius、Erik Bjäreholt、Luis Javier Navarrete Lozano、Nicholas、theTransient、John Detwiler、alfie_i、knownsqashed、Mano Prime、Willem Michiel、Enrico Ros、LangChain4j、OG、Michael Dempsey、Pierre Kircher、Pedro Madruga、James Bentley、Thomas Belote、Luke @flexchar、Leonard Tan、Johann-Peter Hartmann、Illia Dulskyi、Fen Risland、Chadd、S_X、Jeff Scroggin、Ken Nordquist、Sean Connelly、Artur Olbinski、Swaroop Kallakuri、Jack West、Ai Maven、David Ziegler、Russ Johnson、transmissions 11、John Villwock、Alps Aficionado、Clay Pascal、Viktor Bowallius、Subspace Studios、Rainer Wilmers、Trenton Dambrowitz、vamX、Michael Levine、준교 김、Brandon Frisco、Kalila、Trailburnt、Randy H、Talal Aujan、Nathan Dryer、Vadim、阿明、ReadyPlayerEmma、Tiffany J. Kim、George Stoitzev、Spencer Kim、Jerry Meng、Gabriel Tamborski、Cory Kujawski、Jeffrey Morgan、Spiking Neurons AB、Edmond Seymore、Alexandros Triantafyllidis、Lone Striker、Cap'n Zoog、Nikolai Manek、danny、ya boyyy、Derek Yates、usrbinkat、Mandus、TL、Nathan LeClaire、subjectnull、Imad Khwaja、webtim、Raven Klaugh、Asp the Wyvern、Gabriel Puliatti、Caitlyn Gatomon、Joseph William Delisle、Jonathan Leane、Luke Pendergrass、SuperWojo、Sebastain Graf、Will Dee、Fred von Graf、Andrey、Dan Guido、Daniel P. Andersen、Nitin Borwankar、Elle、Vitor Caleffi、biorpg、jjj、NimbleBox.ai、Pieter、Matthew Berman、terasurfer、Michael Davis、Alex、Stanislav Ovsiannikov

すべての寛大なスポンサーと寄付者に感謝します！

再び、a16z の寛大な支援に感謝します。