Stable Vicuna 13Bオープンソース対話モデル - 無料でデプロイして高品質な対話交流を実現する

ホーム

Stable Vicuna 13B GPTQ

TheBlokeによって開発

StableVicuna-13BはVicuna-13B v0モデルをベースに、RLHFで微調整された対話モデルで、4ビットGPTQ量子化形式を採用しています。

大規模言語モデル

Transformers

英語#RLHF微調整 #多輪対話 #指令追従

ダウンロード数 49

リリース時間 : 4/28/2023

モデル概要

これは量子化処理された13Bパラメータの対話モデルで、テキスト生成タスクに適しており、特に対話インタラクション能力が最適化されています。

モデル特徴

4ビットGPTQ量子化

モデルは4ビット量子化処理されており、メモリ使用量を大幅に削減しながら、良好な推論品質を維持しています。

RLHF微調整

人間のフィードバック強化学習(RLHF)によって微調整され、対話インタラクション能力が最適化されています。

複数データセットでの学習

OASST1、GPT4All、Alpacaなどの複数の高品質対話データセットで学習されています。

モデル能力

テキスト生成

対話インタラクション

指令追従

使用事例

対話システム

スマートアシスタント

スマート対話アシスタントの構築に使用できます。

自然で流暢な対話応答を生成できます。

コンテンツ生成

クリエイティブライティング

物語創作やコンテンツ生成を支援します。

🚀 StableVicuna-13B-GPTQ

このリポジトリには、CarperAIのStableVicuna 13Bの4bit GPTQ形式で量子化されたモデルが含まれています。これは、上記リポジトリのデルタを元のLlama 13Bの重みとマージした後、GPTQ-for-LLaMaを使用して4bitに量子化した結果です。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したい方はこちら: TheBlokeのPatreonページ

TheBlokeのLLMに関する作業は、andreessen horowitz (a16z)からの助成金によって支援されています。

🚀 クイックスタート

利用可能なリポジトリ

プロンプトテンプレート

このモデルは、以下のプロンプトテンプレートで最適に動作します。

### Human: ここにあなたのプロンプトを入力
### Assistant:

text-generation-webuiでこのモデルを簡単にダウンロードして使用する方法

通常通りtext-generation-webuiのUIを開きます。

Modelタブをクリックします。
Download custom model or LoRAの下に、TheBloke/stable-vicuna-13B-GPTQを入力します。
Downloadをクリックします。
ダウンロードが完了するまで待ちます。
左上のModelの横にあるRefreshアイコンをクリックします。
Modelドロップダウンで、先ほどダウンロードしたモデルstable-vicuna-13B-GPTQを選択します。
モデルが読み込まれたことを示すメッセージが表示されたら、Text Generationタブをクリックしてプロンプトを入力します！

📦 インストール

提供されているファイル

私はGPTQの2つのバージョンをアップロードしました。

互換性のあるファイル - stable-vicuna-13B-GPTQ-4bit.compat.no-act-order.safetensors mainブランチ（デフォルトのブランチ）には、stable-vicuna-13B-GPTQ-4bit.compat.no-act-order.safetensorsがあります。これは、すべてのバージョンのGPTQ-for-LLaMaで動作します。最大の互換性を持っています。 --act-orderパラメータを使用せずに作成されました。他のファイルと比較して推論品質が若干低い可能性がありますが、GPTQ-for-LLaMaとtext-generation-webuiのすべてのバージョンで動作することが保証されています。

stable-vicuna-13B-GPTQ-4bit.compat.no-act-order.safetensors
- TritonとCUDAの両方のブランチを含む、すべてのバージョンのGPTQ-for-LLaMaコードで動作します。
- text-generation-webuiのワンクリックインストーラーで動作します。
- パラメータ: グループサイズ = 128g。act-orderなし。
- GPTQを作成するために使用されたコマンド:
```
CUDA_VISIBLE_DEVICES=0 python3 llama.py stable-vicuna-13B-HF c4 --wbits 4 --true-sequential --groupsize 128 --save_safetensors stable-vicuna-13B-GPTQ-4bit.no-act-order.safetensors
```

最新のファイル - stable-vicuna-13B-GPTQ-4bit.latest.act-order.safetensors このファイルは、最近のバージョンのGPTQ-for-LLaMa用に作成されており、最大の理論的なパフォーマンスを得るために--act-orderフラグを使用しています。このファイルにアクセスするには、このリポジトリのlatestブランチに切り替えてからダウンロードしてください。

stable-vicuna-13B-GPTQ-4bit.latest.act-order.safetensors
- 最近のGPTQ-for-LLaMaコードでのみ動作します。
- text-generation-webuiのワンクリックインストーラーでは動作しません。
- パラメータ: グループサイズ = 128g。act-orderあり。
- 最高品質の量子化を提供しますが、最近のGPTQ-for-LLaMaコードが必要です。
- GPTQを作成するために使用されたコマンド:
```
CUDA_VISIBLE_DEVICES=0 python3 llama.py stable-vicuna-13B-HF c4 --wbits 4 --true-sequential --act-order --groupsize 128 --save_safetensors stable-vicuna-13B-GPTQ-4bit.act-order.safetensors
```

`text-generation-webui`の手動インストール手順

ファイルstable-vicuna-13B-GPTQ-4bit.compat.no-act-order.safetensorsは、他のGPTQファイルと同じように読み込むことができ、oobaboogas text-generation-webuiを更新する必要はありません。 text-generation-webuiでGPTQ 4bitファイルを使用する方法に関する説明はこちら。

もう1つのsafetensorsモデルファイルは、--act-orderを使用して作成されており、可能な限り最高の量子化品質を提供しますが、これはUI内で最新のGPTQ-for-LLaMaを使用する必要があることを意味します。

act-orderのsafetensorsファイルを使用し、GPTQ-for-LLaMaのTritonブランチを更新する必要がある場合は、以下のコマンドを使用してGPTQ-for-LLaMaのTritonブランチをクローンし、text-generation-webuiをクローンし、UIにGPTQをインストールします。

# まだ持っていない場合は、text-generation-webuiをクローンします
git clone https://github.com/oobabooga/text-generation-webui
# repositoriesディレクトリを作成します
mkdir text-generation-webui/repositories
cd text-generation-webui/repositories
# text-generation-webui内に最新のGPTQ-for-LLaMaコードをクローンします
git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa

次に、このモデルをtext-generation-webui/modelsにインストールし、以下のようにUIを起動します。

cd text-generation-webui
python server.py --model stable-vicuna-13B-GPTQ --wbits 4 --groupsize 128 --model_type Llama # 他のコマンドライン引数を必要に応じて追加します

上記のコマンドは、GPTQ-for-LLaMaとtext-generation-webuiのすべての依存関係をインストールしていることを前提としています。詳細については、それぞれのリポジトリを参照してください。 GPTQ-for-LLaMaを更新できない場合、または更新したくない場合は、上記のようにstable-vicuna-13B-GPTQ-4bit.no-act-order.safetensorsを使用することができ、text-generation-webuiをアップグレードすることなく動作するはずです。

📚 ドキュメント

元のStableVicuna-13Bモデルカード

モデルの説明

StableVicuna-13Bは、Vicuna-13B v0モデルを、様々な会話および命令データセットに対して、近位方策最適化(PPO)を用いた人間のフィードバックによる強化学習(RLHF)で微調整したものです。

モデルの詳細

属性	详情
モデルの作成者	CarperAIのDuy Phung
モデルタイプ	StableVicuna-13Bは、LLaMAトランスフォーマーアーキテクチャに基づく自己回帰型言語モデルです。
言語	英語
ライブラリ	trlX
デルタ重みのライセンス	CC-BY-NC-SA-4.0 注: ベースのLLaMAモデルの重みのライセンスは、Metaの非商用独自ライセンスです。
問い合わせ先	モデルに関する質問やコメントは、CarperAIとStableFoundationのDiscordサーバーにアクセスしてください。
\(n_\text{parameters}\)	13B
\(d_\text{model}\)	5120
\(n_\text{layers}\)	40
\(n_\text{heads}\)	40

トレーニング

トレーニングデータセット

StableVicuna-13Bは、3つのデータセットの混合で微調整されています。OpenAssistant会話データセット(OASST1)は、人間によって生成され、人間によってアノテーションが付けられたアシスタントスタイルの会話コーパスで、35の異なる言語で66,497の会話ツリーに分散された161,443のメッセージから構成されています。 GPT4All Prompt Generationsは、GPT-4によって生成された40万のプロンプトと応答のデータセットです。また、Alpacaは、OpenAIのtext-davinci-003エンジンによって生成された52,000の命令とデモンストレーションのデータセットです。

RLHF中に使用された報酬モデルも、OpenAssistant会話データセット(OASST1)と他の2つのデータセット: Anthropic HH-RLHF（AIアシスタントの有用性と無害性に関する嗜好のデータセット）およびStanford Human Preferences Dataset（料理から法律相談までの18の異なる主題領域の質問/命令に対する応答に関する385Kの集団的な人間の嗜好のデータセット）でトレーニングされました。

トレーニング手順

CarperAI/stable-vicuna-13b-deltaは、trlXで実装されたPPOを使用して、以下の設定でトレーニングされました。

ハイパーパラメータ	値
num_rollouts	128
chunk_size	16
ppo_epochs	4
init_kl_coef	0.1
target	6
horizon	10000
gamma	1
lam	0.95
cliprange	0.2
cliprange_value	0.2
vf_coef	1.0
scale_reward	None
cliprange_reward	10
generation_kwargs
max_length	512
min_length	48
top_k	0.0
top_p	1.0
do_sample	True
temperature	1.0

使用方法と制限

想定される使用方法

このモデルは、会話タスクに重点を置いたテキスト生成に使用することを想定しています。ユーザーは、非商用のライセンスに従って、独自のデータでモデルをさらに微調整して、特定のタスクでのモデルのパフォーマンスを向上させることができます。

制限とバイアス

ベースのLLaMAモデルは、様々なデータでトレーニングされており、その一部には攻撃的、有害、バイアスのあるコンテンツが含まれている可能性があり、有毒な振る舞いにつながる可能性があります。LLaMAの論文のセクション5.1を参照してください。私たちは、前述のデータセットでの微調整がモデルの振る舞いと毒性にどのような影響を与えるかを調査していません。このモデルからのチャット応答を人間の判断の代替品や真実の情報源として扱わないでください。責任を持って使用してください。

謝辞

この研究は、Stability AIの支援なしには不可能でした。

引用

@article{touvron2023llama,
  title={LLaMA: Open and Efficient Foundation Language Models},
  author={Touvron, Hugo and Lavril, Thibaut and Izacard, Gautier and Martinet, Xavier and Lachaux, Marie-Anne and Lacroix, Timoth{\'e}e and Rozi{\`e}re, Baptiste and Goyal, Naman and Hambro, Eric and Azhar, Faisal and Rodriguez, Aurelien and Joulin, Armand and Grave, Edouard and Lample, Guillaume},
  journal={arXiv preprint arXiv:2302.13971},
  year={2023}
}

@misc{vicuna2023,
    title = {Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality},
    url = {https://vicuna.lmsys.org},
    author = {Chiang, Wei-Lin and Li, Zhuohan and Lin, Zi and Sheng, Ying and Wu, Zhanghao and Zhang, Hao and Zheng, Lianmin and Zhuang, Siyuan and Zhuang, Yonghao and Gonzalez, Joseph E. and Stoica, Ion and Xing, Eric P.},
    month = {March},
    year = {2023}
}

@misc{gpt4all,
  author = {Yuvanesh Anand and Zach Nussbaum and Brandon Duderstadt and Benjamin Schmidt and Andriy Mulyar},
  title = {GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/nomic-ai/gpt4all}},
}

@misc{alpaca,
  author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori

📄 ライセンス

このモデルのライセンスは、CC-BY-NC-SA-4.0です。

Discord

これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下のリンクからDiscordサーバーに参加してください。 TheBloke AIのDiscordサーバー

謝辞と貢献方法

chirper.aiチームに感謝します！多くの人から貢献できるかどうかを尋ねられています。私はモデルを提供し、人々を助けることが好きで、それにもっと時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出できれば幸いです。貢献できる方がいれば、大変感謝していただきます。これにより、私はより多くのモデルを提供し、新しいAIプロジェクトの作業を開始することができます。寄付者は、すべてのAI/LLM/モデルに関する質問やリクエストに対する優先サポート、プライベートDiscordルームへのアクセス、その他の特典を受けることができます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝: Aemon Algiz。

Patreonで特別に言及したい方: Sam, theTransient, Jonathan Leane, Steven Wood, webtim, Johann-Peter Hartmann, Geoffrey Montalvo, Gabriel Tamborski, Willem Michiel, John Villwock, Derek Yates, Mesiah Bishop, Eugene Pentland, Pieter, Chadd, Stephen Murray, Daniel P. Andersen, terasurfer, Brandon Frisco, Thomas Belote, Sid, Nathan LeClaire, Magnesian, Alps Aficionado, Stanislav Ovsiannikov, Alex, Joseph William Delisle, Nikolai Manek, Michael Davis, Junyu Yang, K, J, Spencer Kim, Stefan Sabev, Olusegun Samson, transmissions 11, Michael Levine, Cory Kujawski, Rainer Wilmers, zynix, Kalila, Luke @flexchar, Ajan Kanaga, Mandus, vamX, Ai Maven, Mano Prime, Matthew Berman, subjectnull, Vitor Caleffi, Clay Pascal, biorpg, alfie_i, 阿明, Jeffrey Morgan, ya boyyy, Raymond Fosdick, knownsqashed, Olakabola, Leonard Tan, ReadyPlayerEmma, Enrico Ros, Dave, Talal Aujan, Illia Dulskyi, Sean Connelly, senxiiz, Artur Olbinski, Elle, Raven Klaugh, Fen Risland, Deep Realms, Imad Khwaja, Fred von Graf, Will Dee, usrbinkat, SuperWojo, Alexandros Triantafyllidis, Swaroop Kallakuri, Dan Guido, John Detwiler, Pedro Madruga, Iucharbius, Viktor Bowallius, Asp the Wyvern, Edmond Seymore, Trenton Dambrowitz, Space Cruiser, Spiking Neurons AB, Pyrater, LangChain4j, Tony Hughes, Kacper Wikieł, Rishabh Srivastava, David Ziegler, Luke Pendergrass, Andrey, Gabriel Puliatti, Lone Striker, Sebastain Graf, Pierre Kircher, Randy H, NimbleBox.ai, Vadim, danny, Deo Leter

すべての寛大なパトロンと寄付者の皆様に感謝します！そして、a16zの寛大な助成金に再度感謝します。