OpenChat 3.5 7Bオープンソース大規模言語モデル - Mistralアーキテクチャに基づく無料で気軽にチャットできる使用感想

ホーム

Openchat 3.5 GPTQ

TheBlokeによって開発

OpenChat 3.5 7BはMistralアーキテクチャに基づく7Bパラメータの大規模言語モデルで、OpenChatチームによって開発され、Apache 2.0ライセンスで公開されています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #対話最適化 #低リソース効率 #マルチターンインタラクション

ダウンロード数 107

リリース時間 : 11/2/2023

モデル概要

これは効率的な推論に適したGPTQ量子化バージョンのモデルで、テキスト生成タスクをサポートします。

モデル特徴

効率的な量子化

複数のGPTQ量子化バージョン（4ビットと8ビット）を提供し、VRAM使用量と推論速度を最適化

対話最適化

対話シナリオに特化して最適化され、GPT4スタイルのユーザー-アシスタントインタラクションモードをサポート

長いコンテキストサポート

4096トークンのコンテキスト長をサポートし、長い対話や複雑なタスクに適しています

モデル能力

テキスト生成

対話システム

指示追従

コンテンツ作成

使用事例

対話システム

インテリジェントカスタマーサポート

自動カスタマーサポートシステムの構築に使用され、ユーザーの問い合わせを処理

一貫性があり役立つ返答を生成可能

パーソナルアシスタント

個人用デジタルアシスタントとして、質問に答えたりアドバイスを提供

コンテンツ生成

クリエイティブライティング

ストーリー作成や詩の執筆などを支援

🚀 OpenChat 3.5 7B - GPTQ

このモデルは、OpenChatによって開発されたOpenChat 3.5 7BのGPTQモデルです。複数のGPTQパラメータの組み合わせが提供されており、ハードウェアと要件に合わせて最適なものを選択できます。

🚀 クイックスタート

このセクションでは、OpenChat 3.5 7B - GPTQモデルの基本的な使い方を説明します。

モデルのダウンロード

text-generation-webuiでのダウンロード

mainブランチからダウンロードするには、「Download model」ボックスにTheBloke/openchat_3.5-GPTQを入力します。
他のブランチからダウンロードするには、ダウンロード名の末尾に:branchnameを追加します。例えば、TheBloke/openchat_3.5-GPTQ:gptq-4bit-32g-actorder_True

コマンドラインからのダウンロード

huggingface-hubPythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

mainブランチをopenchat_3.5-GPTQというフォルダにダウンロードするには：

mkdir openchat_3.5-GPTQ
huggingface-cli download TheBloke/openchat_3.5-GPTQ --local-dir openchat_3.5-GPTQ --local-dir-use-symlinks False

異なるブランチからダウンロードするには、--revisionパラメータを追加します。

mkdir openchat_3.5-GPTQ
huggingface-cli download TheBloke/openchat_3.5-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir openchat_3.5-GPTQ --local-dir-use-symlinks False

text-generation-webuiでの使用方法

Model tabをクリックします。
Download custom model or LoRAの下に、TheBloke/openchat_3.5-GPTQを入力します。
- 特定のブランチからダウンロードするには、例えばTheBloke/openchat_3.5-GPTQ:gptq-4bit-32g-actorder_Trueと入力します。
- 各オプションのブランチのリストについては、上記の「Provided Files」を参照してください。
Downloadをクリックします。
モデルのダウンロードが開始されます。完了すると「Done」と表示されます。
左上のModelの横にある更新アイコンをクリックします。
Modelのドロップダウンで、先ほどダウンロードしたモデルopenchat_3.5-GPTQを選択します。
モデルは自動的にロードされ、使用可能になります！
カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、しかも設定すべきではありません。これらはquantize_config.jsonファイルから自動的に設定されます。
準備ができたら、Text Generationタブをクリックし、プロンプトを入力して始めましょう！

✨ 主な機能

複数のGPTQパラメータの組み合わせが提供され、ハードウェアと要件に合わせて最適なものを選択できます。
複数の推論サーバー/ウェブUIと互換性があります。

📦 インストール

必要なパッケージのインストール

Transformers 4.33.0以降、Optimum 1.12.0以降、およびAutoGPTQ 0.4.2以降が必要です。

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # CUDA 11.7の場合はcu117を使用

プレビルドのホイールを使用してAutoGPTQをインストールする際に問題がある場合は、ソースからインストールしてください。

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/openchat_3.5-GPTQ"
# 異なるブランチを使用する場合は、revisionを変更します
# 例: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''GPT4 User: {prompt}<|end_of_turn|>GPT4 Assistant:
'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95)
print(f"Model output: {tokenizer.decode(output[0])}")

高度な使用法

Text Generation Inference (TGI)からのモデルの提供

TGIバージョン1.1.0以降の使用をおすすめします。公式のDockerコンテナはghcr.io/huggingface/text-generation-inference:1.1.0です。

例のDockerパラメータ：

--model-id TheBloke/openchat_3.5-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

TGIとやり取りするための例のPythonコード（huggingface-hub 0.17.0以降が必要）：

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''GPT4 User: {prompt}<|end_of_turn|>GPT4 Assistant:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"Model output: {response}")

📚 詳細ドキュメント

説明

このリポジトリには、OpenChatのOpenChat 3.5 7BのGPTQモデルファイルが含まれています。

複数のGPTQパラメータの組み合わせが提供されており、以下の「Provided Files」で提供されるオプション、それらのパラメータ、および作成に使用されたソフトウェアの詳細を確認できます。

これらのファイルは、Massed Computeによって提供されたハードウェアを使用して量子化されました。

利用可能なリポジトリ

プロンプトテンプレート: OpenChat

GPT4 User: {prompt}<|end_of_turn|>GPT4 Assistant:

互換性のあるクライアント/サーバー

これらのGPTQモデルは、以下の推論サーバー/ウェブUIで動作することが知られています。

これは完全なリストではない可能性があります。他のものを知っている場合は、教えてください！

提供されるファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に最適なものを選択できます。

各個別の量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。

ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在、Transformersで作成されています。

GPTQパラメータの説明

Bits: 量子化されたモデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は可能な最低値です。
Act Order: TrueまたはFalse。desc_actとも呼ばれます。Trueの場合、より高い量子化精度が得られます。一部のGPTQクライアントでは、Act OrderとGroup Sizeを使用するモデルに問題がありましたが、現在は一般的に解決されています。
Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が高くなります。
GPTQ dataset: 量子化中に使用されるキャリブレーションデータセット。モデルのトレーニングに適したデータセットを使用すると、量子化精度を向上させることができます。GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットと同じではないことに注意してください。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
Sequence Length: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル（16+K）では、より短いシーケンス長を使用する必要がある場合があります。ただし、シーケンス長を短くすると、量子化されたモデルのシーケンス長が制限されるわけではありません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama Compatibility: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaとMistralモデルのみをサポートしています。

ブランチ	ビット	GS	Act Order	Damp %	GPTQデータセット	シーケンス長	サイズ	ExLlama	説明
main	4	128	Yes	0.1	wikitext	4096	4.16 GB	Yes	4ビット、Act Orderとグループサイズ128g。64gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。
gptq-4bit-32g-actorder_True	4	32	Yes	0.1	wikitext	4096	4.57 GB	Yes	4ビット、Act Orderとグループサイズ32g。最高の推論品質を提供しますが、最大のVRAM使用量になります。
gptq-8bit--1g-actorder_True	8	None	Yes	0.1	wikitext	4096	4.95 GB	No	8ビット、Act Order。グループサイズがないため、VRAM要件が低くなります。
gptq-8bit-128g-actorder_True	8	128	Yes	0.1	wikitext	4096	5.00 GB	No	8ビット、グループサイズ128gでより高い推論品質を、Act Orderでさらに高い精度を提供します。
gptq-8bit-32g-actorder_True	8	32	Yes	0.1	wikitext	4096	4.97 GB	No	8ビット、グループサイズ32gとAct Orderで最大の推論品質を提供します。
gptq-4bit-64g-actorder_True	4	64	Yes	0.1	wikitext	4096	4.30 GB	Yes	4ビット、Act Orderとグループサイズ64g。32gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。

ブランチからのダウンロード方法

text-generation-webuiでのダウンロード

mainブランチからダウンロードするには、「Download model」ボックスにTheBloke/openchat_3.5-GPTQを入力します。

他のブランチからダウンロードするには、ダウンロード名の末尾に:branchnameを追加します。例えば、TheBloke/openchat_3.5-GPTQ:gptq-4bit-32g-actorder_True

コマンドラインからのダウンロード

huggingface-hubPythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

mainブランチをopenchat_3.5-GPTQというフォルダにダウンロードするには：

mkdir openchat_3.5-GPTQ
huggingface-cli download TheBloke/openchat_3.5-GPTQ --local-dir openchat_3.5-GPTQ --local-dir-use-symlinks False

異なるブランチからダウンロードするには、--revisionパラメータを追加します。

mkdir openchat_3.5-GPTQ
huggingface-cli download TheBloke/openchat_3.5-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir openchat_3.5-GPTQ --local-dir-use-symlinks False

huggingface-cliの高度なダウンロード使用法

--local-dir-use-symlinks Falseパラメータを削除すると、ファイルは代わりに中央のHugging Faceキャッシュディレクトリ（Linuxのデフォルトの場所は~/.cache/huggingface）に保存され、指定された--local-dirにシンボリックリンクが追加され、キャッシュ内の実際の場所を指します。これにより、中断されたダウンロードを再開でき、ディスク上の複数の場所にリポジトリをすばやくクローンでき、再ダウンロードをトリガーすることなく済みます。ただし、ファイルがキャッシュフォルダに隠されてしまい、ディスクスペースの使用場所がわかりにくくなり、ダウンロードしたモデルを削除する際にクリーンアップが難しくなるという欠点があります。

キャッシュの場所は、HF_HOME環境変数および/またはhuggingface-cliの--cache-dirパラメータで変更できます。

huggingface-cliでダウンロードする詳細なドキュメントについては、HF -> Hub Python Library -> Download files -> Download from the CLIを参照してください。

高速接続（1Gbit/s以上）でのダウンロードを加速するには、hf_transferをインストールします。

pip3 install hf_transfer

そして、環境変数HF_HUB_ENABLE_HF_TRANSFERを1に設定します。

mkdir openchat_3.5-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/openchat_3.5-GPTQ --local-dir openchat_3.5-GPTQ --local-dir-use-symlinks False

Windowsコマンドラインユーザー：ダウンロードコマンドの前にset HF_HUB_ENABLE_HF_TRANSFER=1を実行して、環境変数を設定できます。

`git`を使用する場合（おすすめしません）

特定のブランチをgitでクローンするには、次のようなコマンドを使用します。

git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/openchat_3.5-GPTQ

HFリポジトリでGitを使用することは強くおすすめしません。huggingface-hubを使用するよりもはるかに遅く、モデルファイルを2回保存する必要があるため（意図したターゲットフォルダと.gitフォルダの両方にすべてのバイトを保存するため）、ディスクスペースを2倍使ってしまいます。

🔧 技術詳細

モデル情報

属性	詳細
モデルタイプ	Mistral
ベースモデル	openchat/openchat_3.5
モデル作成者	OpenChat
モデル名	OpenChat 3.5 7B
プロンプトテンプレート	`GPT4 User: {prompt}<
量子化者	TheBloke