マーリン教育コーパスQA v2オープンソースモデル - 教育分野に正確な質問と回答を提供します

Merlyn Education Corpus Qa V2 GPTQ

TheBlokeによって開発

Merlyn教育コーパスQ&A v2は130億パラメータのデコーダースタイルのトランスフォーマーモデルで、教育分野に適しています。llama2-13bベースモデルからファインチューニングされており、与えられた文脈に基づいて質問に答えるために特別に設計されています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #教育Q&A #文脈理解 #JSON形式出力

ダウンロード数 15

リリース時間 : 11/16/2023

モデル概要

このモデルは教育分野向けのQ&Aモデルで、提供された文脈情報に基づいて質問に答えることができます。幻覚を減らし、より正確な回答を提供するように最適化されています。

モデル特徴

教育分野最適化

教育コンテンツとQ&Aシナリオ向けに特別にファインチューニング

幻覚低減

前バージョンと比較して誤情報生成を削減

文脈理解

提供された文脈情報に基づいて正確な回答を生成

構造化出力

JSON形式の構造化出力をサポートし、統合を容易に

モデル能力

教育Q&A

文脈理解

構造化応答生成

情報抽出

使用事例

教育技術

インテリジェントチューターシステム

インテリジェントチューターシステムのQ&Aエンジンとして、学生の学習質問に回答

文脈に基づく正確な回答を提供

教育コンテンツ分析

教材を分析し関連質問に回答

教材からキー情報を抽出

ナレッジマネジメント

ナレッジベースQ&A

組織内ナレッジベースに基づき従業員の質問に回答

ナレッジ取得効率を向上

🚀 Merlyn Education Corpus QA v2 - GPTQ

このモデルは、教育コーパスに特化した質問応答システムで、GPTQ形式で提供されています。複数の量子化パラメータが用意されており、ハードウェアや要件に合わせて最適なものを選択できます。

📚 詳細ドキュメント

モデル情報

属性	詳情
ベースモデル	MerlynMind/merlyn-education-corpus-qa-v2
推論	false
ライセンス	apache-2.0
モデル作成者	Merlyn Mind
モデル名	Merlyn Education Corpus QA v2
モデルタイプ	llama
プロンプトテンプレート	'Instruction:\t{system_message} Conversation: ''user1'':\tuser message to analyse ''user2'':\tuser message to analyse Response:'
量子化者	TheBloke
タグ	MerlynMind, education

ヘッダー情報

チャットとサポート: TheBlokeのDiscordサーバー

貢献したい方は: TheBlokeのPatreonページ

TheBlokeのLLM開発は、andreessen horowitz (a16z)からの助成金によって支援されています。

モデルの説明

このリポジトリには、Merlyn MindのMerlyn Education Corpus QA v2のGPTQモデルファイルが含まれています。複数のGPTQパラメータの組み合わせが用意されており、以下の「提供されているファイルとGPTQパラメータ」で詳細を確認できます。これらのファイルは、Massed Computeから提供されたハードウェアを使用して量子化されました。

利用可能なリポジトリ

プロンプトテンプレート: Merlyn-Education

Instruction:\t{system_message}
Conversation:
'user1':\tuser message to analyse
'user2':\tuser message to analyse
Response:

ライセンス

ソースモデルの作成者は、ライセンスをapache-2.0としています。この量子化モデルも同じライセンスを使用しています。このモデルはLlama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となり、そのライセンスファイルも含まれています。したがって、両方のライセンスの下でライセンスされていると考えられます。二重ライセンスについての明確化のためにHugging Faceに問い合わせましたが、まだ公式の立場がありません。状況が変わった場合、またはMetaからフィードバックがあった場合、このセクションを適宜更新します。その間、ライセンスに関する質問、特にこれら2つのライセンスがどのように相互作用するかについては、元のモデルリポジトリMerlyn MindのMerlyn Education Corpus QA v2に問い合わせてください。

互換性のあるクライアント/サーバー

これらのGPTQモデルは、以下の推論サーバー/ウェブUIで動作することが知られています。

これは完全なリストではない可能性があります。他の互換性のあるものを知っている場合は、教えてください！

提供されているファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に最適なものを選択できます。各量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在Transformersで作成されています。

GPTQパラメータの説明

Bits: 量子化モデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。"None"は最小値です。
Act Order: TrueまたはFalse。desc_actとも呼ばれます。Trueの場合、量子化精度が向上します。一部のGPTQクライアントでは、Act Orderとグループサイズを併用したモデルに問題がありましたが、現在はほとんど解決しています。
Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータです。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
GPTQデータセット: 量子化中に使用されるキャリブレーションデータセットです。モデルのトレーニングに適したデータセットを使用すると、量子化精度が向上します。ただし、GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットとは異なります。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
シーケンス長: 量子化に使用されるデータセットシーケンスの長さです。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル（16+K）では、より短いシーケンス長を使用する必要がある場合があります。ただし、シーケンス長を短くすると、量子化モデルのシーケンス長が制限されることはありません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama互換性: このファイルがExLlamaで読み込めるかどうか。現在、ExLlamaは4ビットのLlamaとMistralモデルのみをサポートしています。

ブランチ	Bits	GS	Act Order	Damp %	GPTQデータセット	Seq Len	サイズ	ExLlama	説明
main	4	128	Yes	0.1	wikitext	4096	7.26 GB	Yes	4ビット、Act Orderとグループサイズ128g。32gよりもVRAMの使用量が少ないが、精度はわずかに低い。
gptq-4bit-32g-actorder_True	4	32	Yes	0.1	wikitext	4096	8.00 GB	Yes	4ビット、Act Orderとグループサイズ32g。最大の推論品質を提供するが、最大のVRAM使用量。
gptq-8bit--1g-actorder_True	8	None	Yes	0.1	wikitext	4096	13.36 GB	No	8ビット、Act Order。グループサイズなし、VRAM要件を低減。
gptq-8bit-128g-actorder_True	8	128	Yes	0.1	wikitext	4096	13.65 GB	No	8ビット、グループサイズ128gで推論品質を向上、Act Orderでさらに精度を向上。
gptq-8bit-32g-actorder_True	8	32	Yes	0.1	wikitext	4096	14.54 GB	No	8ビット、グループサイズ32gとAct Orderで最大の推論品質。
gptq-4bit-64g-actorder_True	4	64	Yes	0.1	wikitext	4096	7.51 GB	Yes	4ビット、Act Orderとグループサイズ64g。32gよりもVRAMの使用量が少ないが、精度はわずかに低い。

ダウンロード方法（ブランチからの取得を含む）

text-generation-webuiでのダウンロード

mainブランチからダウンロードするには、「Download model」ボックスにTheBloke/merlyn-education-corpus-qa-v2-GPTQを入力します。他のブランチからダウンロードするには、ダウンロード名の末尾に:branchnameを追加します。例えば、TheBloke/merlyn-education-corpus-qa-v2-GPTQ:gptq-4bit-32g-actorder_Trueのようにします。

コマンドラインからのダウンロード

huggingface-hubPythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

mainブランチをmerlyn-education-corpus-qa-v2-GPTQというフォルダにダウンロードするには、以下のコマンドを実行します。

mkdir merlyn-education-corpus-qa-v2-GPTQ
huggingface-cli download TheBloke/merlyn-education-corpus-qa-v2-GPTQ --local-dir merlyn-education-corpus-qa-v2-GPTQ --local-dir-use-symlinks False

異なるブランチからダウンロードするには、--revisionパラメータを追加します。

mkdir merlyn-education-corpus-qa-v2-GPTQ
huggingface-cli download TheBloke/merlyn-education-corpus-qa-v2-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir merlyn-education-corpus-qa-v2-GPTQ --local-dir-use-symlinks False

huggingface-cliの高度なダウンロード使用方法

--local-dir-use-symlinks Falseパラメータを削除すると、ファイルは中央のHugging Faceキャッシュディレクトリ（Linuxのデフォルトの場所は~/.cache/huggingface）に保存され、指定された--local-dirにシンボリックリンクが追加され、キャッシュ内の実際の場所を指します。これにより、中断されたダウンロードを再開でき、ディスク上の複数の場所にリポジトリをすばやくクローンでき、再度ダウンロードする必要がなくなります。ただし、ファイルがキャッシュフォルダに隠されてしまい、ディスクスペースの使用状況がわかりにくくなり、ダウンロードしたモデルを削除する際にクリーンアップが難しくなるという欠点があります。キャッシュの場所は、HF_HOME環境変数とhuggingface-cliの--cache-dirパラメータで変更できます。huggingface-cliでダウンロードする方法の詳細については、HF -> Hub Python Library -> Download files -> Download from the CLIを参照してください。高速接続（1Gbit/s以上）でダウンロードを高速化するには、hf_transferをインストールします。

pip3 install hf_transfer

そして、環境変数HF_HUB_ENABLE_HF_TRANSFERを1に設定します。

mkdir merlyn-education-corpus-qa-v2-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/merlyn-education-corpus-qa-v2-GPTQ --local-dir merlyn-education-corpus-qa-v2-GPTQ --local-dir-use-symlinks False

Windowsコマンドラインユーザーは、ダウンロードコマンドの前にset HF_HUB_ENABLE_HF_TRANSFER=1を実行して環境変数を設定できます。

`git`を使用する方法（推奨しません）

特定のブランチをgitでクローンするには、次のようなコマンドを使用します。

git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/merlyn-education-corpus-qa-v2-GPTQ

HFリポジトリでgitを使用することは強くお勧めしません。huggingface-hubを使用するよりもはるかに遅く、モデルファイルを2回保存する必要があるため、ディスクスペースを2倍使ってしまいます（意図したターゲットフォルダと.gitフォルダの両方に保存されます）。

text-generation-webuiでのダウンロードと使用方法

text-generation-webuiの最新バージョンを使用していることを確認してください。手動インストール方法を知っている場合を除き、text-generation-webuiのワンクリックインストーラーを使用することを強くおすすめします。

Modelタブをクリックします。
Download custom model or LoRAの下に、TheBloke/merlyn-education-corpus-qa-v2-GPTQを入力します。
- 特定のブランチからダウンロードするには、例えばTheBloke/merlyn-education-corpus-qa-v2-GPTQ:gptq-4bit-32g-actorder_Trueのように入力します。
- 各オプションのブランチのリストについては、上記の「提供されているファイルとGPTQパラメータ」を参照してください。
Downloadをクリックします。
モデルのダウンロードが開始されます。完了すると「Done」と表示されます。
左上のModelの横にある更新アイコンをクリックします。
Modelのドロップダウンで、先ほどダウンロードしたモデルmerlyn-education-corpus-qa-v2-GPTQを選択します。
モデルが自動的にロードされ、使用可能になります！
カスタム設定が必要な場合は、設定してから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、しかも設定しないでください。これらはquantize_config.jsonファイルから自動的に設定されます。
準備ができたら、Text Generationタブをクリックし、プロンプトを入力して始めましょう！

Text Generation Inference (TGI)からのモデル提供

TGIバージョン1.1.0以降の使用をおすすめします。公式のDockerコンテナはghcr.io/huggingface/text-generation-inference:1.1.0です。

例のDockerパラメータ:

--model-id TheBloke/merlyn-education-corpus-qa-v2-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

TGIとインターフェースするための例のPythonコード（huggingface-hub 0.17.0以降が必要）:

pip3 install huggingface-hub

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''Instruction:\t{system_message}
Conversation:
'user1':\tuser message to analyse
'user2':\tuser message to analyse
Response:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  tempe