GEITje-7B-chat-GPTQオープンソースオランダ語対話モデル - 無料でデプロイしてチャット対話タスクを支援

ホーム

Geitje 7B Chat GPTQ

TheBlokeによって開発

GEITje-7B-chatはMistralアーキテクチャに基づくオランダ語会話モデルで、チャットや対話タスクに最適化されています。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #オランダ語会話 #7Bパラメータ規模 #Mistralアーキテクチャ

ダウンロード数 21

リリース時間 : 12/19/2023

モデル概要

このモデルはMistralアーキテクチャの7Bパラメータ規模のオランダ語会話モデルで、no_robots_nlとultrachat_10k_nlデータセットでトレーニングされ、オランダ語の会話生成タスクに適しています。

モデル特徴

オランダ語最適化

オランダ語会話タスクに特化してトレーニングおよび最適化されています

会話能力

自然で流暢な会話応答の生成に焦点を当てています

オープンソースライセンス

Apache 2.0ライセンスを採用しており、商用利用が可能です

モデル能力

オランダ語会話生成

チャットボット開発

自然言語理解

使用事例

カスタマーサービス

オランダ語カスタマーサービスボット

オランダ語市場向けの自動カスタマーサービスシステム

流暢で自然なオランダ語のカスタマーサービス会話を提供します

教育

オランダ語学習アシスタント

学習者がオランダ語会話を練習するのを支援

自然なオランダ語会話練習環境を提供します

🚀 Geitje 7B Chat - GPTQ

このモデルは、Edwin Rijgersberg氏によって開発されたGeitje 7B ChatのGPTQ形式のモデルファイルを含んでいます。複数のGPTQパラメータの組み合わせが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。

🚀 クイックスタート

モデルの基本情報

属性	详情
モデルタイプ	Mistral
訓練データ	Rijgersberg/no_robots_nl、Rijgersberg/ultrachat_10k_nl
モデル作成者	Edwin Rijgersberg
モデル名	Geitje 7B Chat
パイプラインタグ	会話型
プロンプトテンプレート	`<
量子化者	TheBloke
ライセンス	Apache-2.0

プロンプトテンプレート: ToRA

<|user|>
{prompt}
<|assistant|>

互換性のあるクライアント/サーバー

GPTQモデルは現在、Linux（NVidia/AMD）とWindows（NVidiaのみ）でサポートされています。macOSユーザーはGGUFモデルを使用してください。

これらのGPTQモデルは以下の推論サーバー/ウェブUIで動作することが知られています。

これは完全なリストではない可能性があります。他にも互換性のあるものを知っている場合は、教えてください！

提供されるファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に合わせて最適なものを選ぶことができます。

各量子化パラメータの組み合わせは異なるブランチにあります。異なるブランチからファイルを取得する方法については、以下を参照してください。

ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在、Transformersで作成されています。

GPTQパラメータの説明

ビット数: 量子化されたモデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。"None"は最小値です。
Act Order: TrueまたはFalse。desc_actとも呼ばれます。Trueの場合、量子化精度が向上します。一部のGPTQクライアントでは、Act Orderとグループサイズを組み合わせたモデルに問題があったことがありますが、現在はほとんど解決されています。
Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
GPTQデータセット: 量子化中に使用されるキャリブレーションデータセット。モデルの訓練に適したデータセットを使用すると、量子化精度が向上する場合があります。なお、GPTQキャリブレーションデータセットはモデルの訓練に使用されるデータセットとは異なります。訓練データセットの詳細については、元のモデルリポジトリを参照してください。
シーケンス長: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル（16K以上）では、より短いシーケンス長を使用する必要がある場合があります。ただし、短いシーケンス長は量子化されたモデルのシーケンス長を制限するものではありません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama互換性: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaとMistralモデルのみをサポートしています。

ブランチ	ビット数	GS	Act Order	Damp %	GPTQデータセット	シーケンス長	サイズ	ExLlama互換性	説明
main	4	128	Yes	0.1	Dolly 15K Dutch	4096	4.16 GB	Yes	4ビット、Act Order付き、グループサイズ128g。64gよりもVRAMの使用量が少なくなりますが、精度はわずかに低下します。
gptq-4bit-32g-actorder_True	4	32	Yes	0.1	Dolly 15K Dutch	4096	4.57 GB	Yes	4ビット、Act Order付き、グループサイズ32g。最大の推論品質を提供しますが、VRAMの使用量が最大になります。
gptq-8bit--1g-actorder_True	8	None	Yes	0.1	Dolly 15K Dutch	4096	7.52 GB	No	8ビット、Act Order付き。グループサイズなしで、VRAMの使用量を抑えます。
gptq-8bit-128g-actorder_True	8	128	Yes	0.1	Dolly 15K Dutch	4096	7.68 GB	No	8ビット、グループサイズ128gで推論品質を向上させ、Act Orderでさらに精度を高めます。
gptq-8bit-32g-actorder_True	8	32	Yes	0.1	Dolly 15K Dutch	4096	8.17 GB	No	8ビット、グループサイズ32gとAct Orderで最大の推論品質を提供します。
gptq-4bit-64g-actorder_True	4	64	Yes	0.1	Dolly 15K Dutch	4096	4.29 GB	Yes	4ビット、Act Order付き、グループサイズ64g。32gよりもVRAMの使用量が少なくなりますが、精度はわずかに低下します。

ダウンロード方法（ブランチからのダウンロードを含む）

text-generation-webuiでのダウンロード

mainブランチからダウンロードするには、"Download model"ボックスにTheBloke/GEITje-7B-chat-GPTQを入力します。

他のブランチからダウンロードするには、ダウンロード名の末尾に:branchnameを追加します。例えば、TheBloke/GEITje-7B-chat-GPTQ:gptq-4bit-32g-actorder_True

コマンドラインからのダウンロード

huggingface-hubPythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

mainブランチをGEITje-7B-chat-GPTQというフォルダにダウンロードするには：

mkdir GEITje-7B-chat-GPTQ
huggingface-cli download TheBloke/GEITje-7B-chat-GPTQ --local-dir GEITje-7B-chat-GPTQ --local-dir-use-symlinks False

異なるブランチからダウンロードするには、--revisionパラメータを追加します。

mkdir GEITje-7B-chat-GPTQ
huggingface-cli download TheBloke/GEITje-7B-chat-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir GEITje-7B-chat-GPTQ --local-dir-use-symlinks False

huggingface-cliの高度なダウンロード使用方法

--local-dir-use-symlinks Falseパラメータを削除すると、ファイルは中央のHugging Faceキャッシュディレクトリ（Linuxのデフォルトの場所は~/.cache/huggingface）に保存され、指定された--local-dirにシンボリックリンクが追加され、キャッシュ内の実際の場所を指します。これにより、中断したダウンロードを再開でき、ディスク上の複数の場所にリポジトリをすばやくクローンでき、再ダウンロードをトリガーすることなく済みます。ただし、ファイルがキャッシュフォルダに隠されてしまい、ディスクスペースの使用状況がわかりにくくなり、ダウンロードしたモデルを削除する際にクリーンアップが難しくなるという欠点があります。

キャッシュの場所は、HF_HOME環境変数および/またはhuggingface-cliの--cache-dirパラメータで変更できます。

huggingface-cliでダウンロードするための詳細なドキュメントについては、HF -> Hub Python Library -> Download files -> Download from the CLIを参照してください。

高速接続（1Gbit/s以上）でのダウンロードを高速化するには、hf_transferをインストールします。

pip3 install hf_transfer

そして、環境変数HF_HUB_ENABLE_HF_TRANSFERを1に設定します。

mkdir GEITje-7B-chat-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/GEITje-7B-chat-GPTQ --local-dir GEITje-7B-chat-GPTQ --local-dir-use-symlinks False

Windowsコマンドラインユーザーは、ダウンロードコマンドの前にset HF_HUB_ENABLE_HF_TRANSFER=1を実行して環境変数を設定できます。

`git`を使用したダウンロード（おすすめしません）

特定のブランチをgitでクローンするには、次のようなコマンドを使用します。

git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/GEITje-7B-chat-GPTQ

なお、GitをHFリポジトリとともに使用することは強くおすすめしません。huggingface-hubを使用するよりもはるかに遅く、モデルファイルを2回保存する必要があるため、ディスクスペースを2倍使ってしまいます（意図したターゲットフォルダと.gitフォルダの両方に保存されます）。

text-generation-webuiでのモデルのダウンロードと使用方法

text-generation-webuiの最新バージョンを使用していることを確認してください。

手動インストール方法を熟知していない限り、text-generation-webuiのワンクリックインストーラーを使用することを強くおすすめします。

Modelタブをクリックします。
Download custom model or LoRAの下に、TheBloke/GEITje-7B-chat-GPTQを入力します。
- 特定のブランチからダウンロードするには、例えばTheBloke/GEITje-7B-chat-GPTQ:gptq-4bit-32g-actorder_Trueのように入力します。
- 各オプションのブランチのリストについては、上記の「提供されるファイルとGPTQパラメータ」を参照してください。
Downloadをクリックします。
モデルのダウンロードが開始されます。完了すると、"Done"と表示されます。
左上のModelの横にあるリフレッシュアイコンをクリックします。
Modelのドロップダウンメニューから、先ほどダウンロードしたモデルGEITje-7B-chat-GPTQを選択します。
モデルは自動的にロードされ、使用可能な状態になります！
カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、しかも設定しないでください。これらはquantize_config.jsonファイルから自動的に設定されます。
準備ができたら、Text Generationタブをクリックし、プロンプトを入力して開始します！

Text Generation Inference (TGI)からのモデルの提供

TGIバージョン1.1.0以上を使用することをおすすめします。公式のDockerコンテナはghcr.io/huggingface/text-generation-inference:1.1.0です。

例のDockerパラメータ：

--model-id TheBloke/GEITje-7B-chat-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

TGIとやり取りするための例のPythonコード（huggingface-hub 0.17.0以上が必要）：

pip3 install huggingface-hub

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''<|user|>
{prompt}
<|assistant|>
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"Model output: {response}")

Pythonコード例: このGPTQモデルからの推論

必要なパッケージのインストール

Transformers 4.33.0以上、Optimum 1.12.0以上、およびAutoGPTQ 0.4.2以上が必要です。

pip3 install --upgrade transformers optimum
# PyTorch 2.1 + CUDA 12.xを使用する場合:
pip3 install --upgrade auto-gptq
# または、PyTorch 2.1 + CUDA 11.xを使用する場合:
pip3 install --upgrade auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/

PyTorch 2.0を使用している場合は、AutoGPTQをソースからインストールする必要があります。同様に、事前構築されたホイールに問題がある場合は、ソースからビルドしてみることをおすすめします。

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.5.1
pip3 install .

例のPythonコード

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/GEITje-7B-chat-GPTQ"
# 別のブランチを使用する場合は、revisionを変更します。
# 例: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

# パイプラインを作成します。
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    temperature=0.7,
    top_p=0.95,
    repetition_penalty=1.1
)

# プロンプトを定義します。
prompt = "Tell me about AI"
prompt_template=f'''<|user|>
{prompt}
<|assistant|>
'''

# 推論を実行します。
output = pipe(prompt_template)[0]['generated_text']

print("Model output:", output)