Merlyn Education Safetyオープンソース大規模言語モデル - 教育分野の安全関連コンテンツ生成を無料でサポート

ホーム

Merlyn Education Safety GPTQ

TheBlokeによって開発

Merlyn Education Safety 12B は教育分野の安全なコンテンツ生成に特化した大規模言語モデルで、Merlyn Mindによって開発されました。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #教育コンテンツフィルタリング #マルチターン対話セキュリティ #コマンド応答最適化

ダウンロード数 14

リリース時間 : 11/16/2023

モデル概要

このモデルは教育環境向けに安全で適切なコンテンツを生成することを目的としており、教育者と学生の使用に適しています。

モデル特徴

教育安全コンテンツ生成

教育環境に特化して最適化され、学生や教育者が使用するのに適した安全なコンテンツを生成します。

大規模言語モデル

GPT-NeoX アーキテクチャに基づく12Bパラメータのモデルで、強力なテキスト理解と生成能力を備えています。

Apache 2.0 ライセンス

寛容なオープンソースライセンスを採用しており、商業および研究用途が許可されています。

モデル能力

テキスト生成

教育コンテンツ作成

安全コンテンツフィルタリング

使用事例

教育

教材生成

教師が授業で使用する教材や練習問題を生成します。

学生の宿題支援

学生が複雑な概念を理解し、宿題を完成させるのを支援します。

コンテンツセキュリティ

安全コンテンツフィルタリング

生成されるコンテンツが教育環境に適しており、不適切な内容を回避することを保証します。

🚀 Merlyn Education Safety 12B - GPTQ

このリポジトリは、Merlyn MindのMerlyn Education Safety 12BのGPTQモデルファイルを含んでいます。複数のGPTQパラメータの組み合わせが用意されており、以下の「提供されるファイル」で各オプション、そのパラメータ、および作成に使用されたソフトウェアの詳細を確認できます。これらのファイルは、Massed Computeにより提供されたハードウェアを使用して量子化されました。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したいですか？TheBlokeのPatreonページ

TheBlokeのLLMに関する作業は、andreessen horowitz (a16z)からの助成金によって支援されています。

✨ 主な機能

複数のGPTQパラメータの組み合わせを提供し、ハードウェアと要件に合わせた最適なパラメータを選択できます。
複数の推論サーバー/ウェブUIと互換性があります。

📦 インストール

テキスト生成ウェブUIでのダウンロード

mainブランチからダウンロードするには、「モデルをダウンロード」ボックスにTheBloke/merlyn-education-safety-GPTQを入力します。
他のブランチからダウンロードするには、ダウンロード名の末尾に:branchnameを追加します。例えば、TheBloke/merlyn-education-safety-GPTQ:gptq-4bit-32g-actorder_True

コマンドラインからのダウンロード

huggingface-hub Pythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

mainブランチをmerlyn-education-safety-GPTQというフォルダにダウンロードするには：

mkdir merlyn-education-safety-GPTQ
huggingface-cli download TheBloke/merlyn-education-safety-GPTQ --local-dir merlyn-education-safety-GPTQ --local-dir-use-symlinks False

別のブランチからダウンロードするには、--revisionパラメータを追加します。

mkdir merlyn-education-safety-GPTQ
huggingface-cli download TheBloke/merlyn-education-safety-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir merlyn-education-safety-GPTQ --local-dir-use-symlinks False

Pythonコードでのインストール

必要なパッケージをインストールします。

pip3 install --upgrade transformers optimum
# PyTorch 2.1 + CUDA 12.xを使用する場合:
pip3 install --upgrade auto-gptq
# または、PyTorch 2.1 + CUDA 11.xを使用する場合:
pip3 install --upgrade auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/

PyTorch 2.0を使用している場合、または事前構築されたホイールに問題がある場合は、ソースからAutoGPTQをインストールする必要があります。

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.5.1
pip3 install .

💻 使用例

テキスト生成ウェブUIでの使用

モデルタブをクリックします。
カスタムモデルまたはLoRAをダウンロードの下に、TheBloke/merlyn-education-safety-GPTQを入力します。
- 特定のブランチからダウンロードするには、例えばTheBloke/merlyn-education-safety-GPTQ:gptq-4bit-32g-actorder_Trueと入力します。
- 各オプションのブランチのリストは、上記の「提供されるファイル」を参照してください。
ダウンロードをクリックします。
モデルのダウンロードが開始され、完了すると「完了」と表示されます。
左上のモデルの横にある更新アイコンをクリックします。
モデルのドロップダウンで、先ほどダウンロードしたモデルmerlyn-education-safety-GPTQを選択します。
モデルは自動的にロードされ、使用可能な状態になります。
カスタム設定が必要な場合は、設定してから右上のこのモデルの設定を保存をクリックし、続いてモデルを再読み込みをクリックします。
- 手動でGPTQパラメータを設定する必要はなく、quantize_config.jsonファイルから自動的に設定されます。
準備ができたら、テキスト生成タブをクリックし、プロンプトを入力して使用を開始します。

Text Generation Inference (TGI)からのモデルの提供

TGIバージョン1.1.0以降の使用をおすすめします。公式のDockerコンテナはghcr.io/huggingface/text-generation-inference:1.1.0です。

--model-id TheBloke/merlyn-education-safety-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

TGIとやり取りするためのPythonコードの例（huggingface-hub 0.17.0以降が必要）：

pip3 install huggingface-hub

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''Instruction:\t{system_message}
Message:{prompt}
Response:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"Model output: {response}")

Pythonコードでの推論

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/merlyn-education-safety-GPTQ"
# 別のブランチを使用する場合は、revisionを変更します。
# 例えば: revision="gptq-4bit-32g-actorder_True"

📚 ドキュメント

提供されるファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に最適なものを選択できます。各量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。ほとんどのGPTQファイルはAutoGPTQで作成されています。Mistralモデルは現在、Transformersで作成されています。

GPTQパラメータの説明

Bits: 量子化されたモデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。「None」は最小の値です。
Act Order: TrueまたはFalse。desc_actとも呼ばれます。Trueの場合、量子化精度が向上します。一部のGPTQクライアントでは、Act Orderとグループサイズを使用するモデルに問題がありましたが、現在は一般的に解決されています。
Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が向上します。
GPTQ dataset: 量子化中に使用されるキャリブレーションデータセット。モデルのトレーニングに適したデータセットを使用すると、量子化精度が向上します。GPTQキャリブレーションデータセットは、モデルのトレーニングに使用されるデータセットとは異なります。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
Sequence Length: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。一部の非常に長いシーケンスモデル（16+K）では、より短いシーケンス長を使用する必要がある場合があります。ただし、短いシーケンス長は、量子化されたモデルのシーケンス長を制限するものではありません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama Compatibility: このファイルがExLlamaでロードできるかどうか。現在、ExLlamaは4ビットのLlamaとMistralモデルのみをサポートしています。

ブランチ	Bits	GS	Act Order	Damp %	GPTQデータセット	Seq Len	サイズ	ExLlama	説明
main	4	128	Yes	0.1	wikitext	2048	6.93 GB	No	4ビット、Act Orderとグループサイズ128g。64gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。
gptq-4bit-32g-actorder_True	4	32	Yes	0.1	wikitext	2048	7.60 GB	No	4ビット、Act Orderとグループサイズ32g。可能な限り高い推論品質を提供しますが、最大のVRAM使用量が必要です。
gptq-8bit--1g-actorder_True	8	None	Yes	0.1	wikitext	2048	12.38 GB	No	8ビット、Act Order。グループサイズがないため、VRAMの要件が低くなります。
gptq-8bit-128g-actorder_True	8	128	Yes	0.1	wikitext	2048	12.64 GB	No	8ビット、グループサイズ128gで推論品質が向上し、Act Orderでさらに精度が向上します。
gptq-8bit-32g-actorder_True	8	32	Yes	0.1	wikitext	2048	13.43 GB	No	8ビット、グループサイズ32gとAct Orderで最大の推論品質を実現します。
gptq-4bit-64g-actorder_True	4	64	Yes	0.1	wikitext	2048	7.15 GB	No	4ビット、Act Orderとグループサイズ64g。32gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。

プロンプトテンプレート: Merlyn-Education-Safety

Instruction:\t{system_message}
Message:{prompt}
Response:

互換性のあるクライアント/サーバー

これらのGPTQモデルは、以下の推論サーバー/ウェブUIで動作することが確認されています。

これは完全なリストではない可能性があります。他のものを知っている場合は、教えてください！

📄 ライセンス

このモデルは、Apache 2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご