モデル概要
モデル特徴
モデル能力
使用事例
🚀 Merlyn Education Corpus QA v2 - GPTQ
このモデルは、教育コーパスに特化した質問応答システムで、GPTQ形式で提供されています。複数の量子化パラメータが用意されており、ハードウェアや要件に合わせて最適なものを選択できます。
📚 詳細ドキュメント
モデル情報
属性 | 詳情 |
---|---|
ベースモデル | MerlynMind/merlyn-education-corpus-qa-v2 |
推論 | false |
ライセンス | apache-2.0 |
モデル作成者 | Merlyn Mind |
モデル名 | Merlyn Education Corpus QA v2 |
モデルタイプ | llama |
プロンプトテンプレート | 'Instruction:\t{system_message} Conversation: ''user1'':\tuser message to analyse ''user2'':\tuser message to analyse Response:' |
量子化者 | TheBloke |
タグ | MerlynMind, education |
ヘッダー情報

TheBlokeのLLM開発は、andreessen horowitz (a16z)からの助成金によって支援されています。
モデルの説明
このリポジトリには、Merlyn MindのMerlyn Education Corpus QA v2のGPTQモデルファイルが含まれています。複数のGPTQパラメータの組み合わせが用意されており、以下の「提供されているファイルとGPTQパラメータ」で詳細を確認できます。これらのファイルは、Massed Computeから提供されたハードウェアを使用して量子化されました。
利用可能なリポジトリ
- GPU推論用のAWQモデル
- 複数の量子化パラメータオプションを持つGPU推論用のGPTQモデル
- CPU+GPU推論用の2、3、4、5、6、8ビットのGGUFモデル
- GPU推論とさらなる変換用の、Merlyn Mindの元の非量子化fp16モデル(pytorch形式)
プロンプトテンプレート: Merlyn-Education
Instruction:\t{system_message}
Conversation:
'user1':\tuser message to analyse
'user2':\tuser message to analyse
Response:
ライセンス
ソースモデルの作成者は、ライセンスをapache-2.0
としています。この量子化モデルも同じライセンスを使用しています。このモデルはLlama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となり、そのライセンスファイルも含まれています。したがって、両方のライセンスの下でライセンスされていると考えられます。二重ライセンスについての明確化のためにHugging Faceに問い合わせましたが、まだ公式の立場がありません。状況が変わった場合、またはMetaからフィードバックがあった場合、このセクションを適宜更新します。その間、ライセンスに関する質問、特にこれら2つのライセンスがどのように相互作用するかについては、元のモデルリポジトリMerlyn MindのMerlyn Education Corpus QA v2に問い合わせてください。
互換性のあるクライアント/サーバー
これらのGPTQモデルは、以下の推論サーバー/ウェブUIで動作することが知られています。
これは完全なリストではない可能性があります。他の互換性のあるものを知っている場合は、教えてください!
提供されているファイルとGPTQパラメータ
複数の量子化パラメータが提供されており、ハードウェアと要件に最適なものを選択できます。各量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在Transformersで作成されています。
GPTQパラメータの説明
- Bits: 量子化モデルのビットサイズ。
- GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。"None"は最小値です。
- Act Order: TrueまたはFalse。
desc_act
とも呼ばれます。Trueの場合、量子化精度が向上します。一部のGPTQクライアントでは、Act Orderとグループサイズを併用したモデルに問題がありましたが、現在はほとんど解決しています。 - Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータです。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
- GPTQデータセット: 量子化中に使用されるキャリブレーションデータセットです。モデルのトレーニングに適したデータセットを使用すると、量子化精度が向上します。ただし、GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットとは異なります。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
- シーケンス長: 量子化に使用されるデータセットシーケンスの長さです。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル(16+K)では、より短いシーケンス長を使用する必要がある場合があります。ただし、シーケンス長を短くすると、量子化モデルのシーケンス長が制限されることはありません。長い推論シーケンスでの量子化精度にのみ影響します。
- ExLlama互換性: このファイルがExLlamaで読み込めるかどうか。現在、ExLlamaは4ビットのLlamaとMistralモデルのみをサポートしています。
ブランチ | Bits | GS | Act Order | Damp % | GPTQデータセット | Seq Len | サイズ | ExLlama | 説明 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | Yes | 0.1 | wikitext | 4096 | 7.26 GB | Yes | 4ビット、Act Orderとグループサイズ128g。32gよりもVRAMの使用量が少ないが、精度はわずかに低い。 |
gptq-4bit-32g-actorder_True | 4 | 32 | Yes | 0.1 | wikitext | 4096 | 8.00 GB | Yes | 4ビット、Act Orderとグループサイズ32g。最大の推論品質を提供するが、最大のVRAM使用量。 |
gptq-8bit--1g-actorder_True | 8 | None | Yes | 0.1 | wikitext | 4096 | 13.36 GB | No | 8ビット、Act Order。グループサイズなし、VRAM要件を低減。 |
gptq-8bit-128g-actorder_True | 8 | 128 | Yes | 0.1 | wikitext | 4096 | 13.65 GB | No | 8ビット、グループサイズ128gで推論品質を向上、Act Orderでさらに精度を向上。 |
gptq-8bit-32g-actorder_True | 8 | 32 | Yes | 0.1 | wikitext | 4096 | 14.54 GB | No | 8ビット、グループサイズ32gとAct Orderで最大の推論品質。 |
gptq-4bit-64g-actorder_True | 4 | 64 | Yes | 0.1 | wikitext | 4096 | 7.51 GB | Yes | 4ビット、Act Orderとグループサイズ64g。32gよりもVRAMの使用量が少ないが、精度はわずかに低い。 |
ダウンロード方法(ブランチからの取得を含む)
text-generation-webuiでのダウンロード
main
ブランチからダウンロードするには、「Download model」ボックスにTheBloke/merlyn-education-corpus-qa-v2-GPTQ
を入力します。他のブランチからダウンロードするには、ダウンロード名の末尾に:branchname
を追加します。例えば、TheBloke/merlyn-education-corpus-qa-v2-GPTQ:gptq-4bit-32g-actorder_True
のようにします。
コマンドラインからのダウンロード
huggingface-hub
Pythonライブラリを使用することをおすすめします。
pip3 install huggingface-hub
main
ブランチをmerlyn-education-corpus-qa-v2-GPTQ
というフォルダにダウンロードするには、以下のコマンドを実行します。
mkdir merlyn-education-corpus-qa-v2-GPTQ
huggingface-cli download TheBloke/merlyn-education-corpus-qa-v2-GPTQ --local-dir merlyn-education-corpus-qa-v2-GPTQ --local-dir-use-symlinks False
異なるブランチからダウンロードするには、--revision
パラメータを追加します。
mkdir merlyn-education-corpus-qa-v2-GPTQ
huggingface-cli download TheBloke/merlyn-education-corpus-qa-v2-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir merlyn-education-corpus-qa-v2-GPTQ --local-dir-use-symlinks False
huggingface-cliの高度なダウンロード使用方法
--local-dir-use-symlinks False
パラメータを削除すると、ファイルは中央のHugging Faceキャッシュディレクトリ(Linuxのデフォルトの場所は~/.cache/huggingface
)に保存され、指定された--local-dir
にシンボリックリンクが追加され、キャッシュ内の実際の場所を指します。これにより、中断されたダウンロードを再開でき、ディスク上の複数の場所にリポジトリをすばやくクローンでき、再度ダウンロードする必要がなくなります。ただし、ファイルがキャッシュフォルダに隠されてしまい、ディスクスペースの使用状況がわかりにくくなり、ダウンロードしたモデルを削除する際にクリーンアップが難しくなるという欠点があります。キャッシュの場所は、HF_HOME
環境変数とhuggingface-cli
の--cache-dir
パラメータで変更できます。huggingface-cli
でダウンロードする方法の詳細については、HF -> Hub Python Library -> Download files -> Download from the CLIを参照してください。高速接続(1Gbit/s以上)でダウンロードを高速化するには、hf_transfer
をインストールします。
pip3 install hf_transfer
そして、環境変数HF_HUB_ENABLE_HF_TRANSFER
を1
に設定します。
mkdir merlyn-education-corpus-qa-v2-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/merlyn-education-corpus-qa-v2-GPTQ --local-dir merlyn-education-corpus-qa-v2-GPTQ --local-dir-use-symlinks False
Windowsコマンドラインユーザーは、ダウンロードコマンドの前にset HF_HUB_ENABLE_HF_TRANSFER=1
を実行して環境変数を設定できます。
git
を使用する方法(推奨しません)
特定のブランチをgit
でクローンするには、次のようなコマンドを使用します。
git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/merlyn-education-corpus-qa-v2-GPTQ
HFリポジトリでgit
を使用することは強くお勧めしません。huggingface-hub
を使用するよりもはるかに遅く、モデルファイルを2回保存する必要があるため、ディスクスペースを2倍使ってしまいます(意図したターゲットフォルダと.git
フォルダの両方に保存されます)。
text-generation-webuiでのダウンロードと使用方法
text-generation-webuiの最新バージョンを使用していることを確認してください。手動インストール方法を知っている場合を除き、text-generation-webuiのワンクリックインストーラーを使用することを強くおすすめします。
- Modelタブをクリックします。
- Download custom model or LoRAの下に、
TheBloke/merlyn-education-corpus-qa-v2-GPTQ
を入力します。- 特定のブランチからダウンロードするには、例えば
TheBloke/merlyn-education-corpus-qa-v2-GPTQ:gptq-4bit-32g-actorder_True
のように入力します。 - 各オプションのブランチのリストについては、上記の「提供されているファイルとGPTQパラメータ」を参照してください。
- 特定のブランチからダウンロードするには、例えば
- Downloadをクリックします。
- モデルのダウンロードが開始されます。完了すると「Done」と表示されます。
- 左上のModelの横にある更新アイコンをクリックします。
- Modelのドロップダウンで、先ほどダウンロードしたモデル
merlyn-education-corpus-qa-v2-GPTQ
を選択します。 - モデルが自動的にロードされ、使用可能になります!
- カスタム設定が必要な場合は、設定してから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、しかも設定しないでください。これらは
quantize_config.json
ファイルから自動的に設定されます。
- 手動でGPTQパラメータを設定する必要はなく、しかも設定しないでください。これらは
- 準備ができたら、Text Generationタブをクリックし、プロンプトを入力して始めましょう!
Text Generation Inference (TGI)からのモデル提供
TGIバージョン1.1.0以降の使用をおすすめします。公式のDockerコンテナはghcr.io/huggingface/text-generation-inference:1.1.0
です。
例のDockerパラメータ:
--model-id TheBloke/merlyn-education-corpus-qa-v2-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096
TGIとインターフェースするための例のPythonコード(huggingface-hub 0.17.0以降が必要):
pip3 install huggingface-hub
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''Instruction:\t{system_message}
Conversation:
'user1':\tuser message to analyse
'user2':\tuser message to analyse
Response:
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
tempe



