🚀 MythoMax L2 13B - AWQ
このモデルは、GrypheによるMythoMax L2 13BのAWQ形式のモデルファイルを提供します。AWQは、高速で高精度な低ビット量子化手法で、4ビット量子化に対応しています。GPTQと比較して、Transformerベースの推論が高速です。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。
vLLMを使用したサービング
vLLMのインストールと使用方法については、こちらのドキュメントを参照してください。
- vLLMをサーバーとして使用する場合は、
--quantization awq
パラメータを指定します。
python3 python -m vllm.entrypoints.api_server --model TheBloke/MythoMax-L2-13B-AWQ --quantization awq
- PythonコードからvLLMを使用する場合は、
quantization=awq
パラメータを指定します。
from vllm import LLM, SamplingParams
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="TheBloke/MythoMax-L2-13B-AWQ", quantization="awq")
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
Pythonコードからの使用
このAWQモデルをPythonコードから使用するには、以下の手順に従ってください。
必要なパッケージのインストール
AutoAWQ 0.0.2以上が必要です。
pip3 install autoawq
AutoAWQの事前構築済みホイールを使用してインストールできない場合は、ソースからインストールしてください。
pip3 uninstall -y autoawq
git clone https://github.com/casper-hansen/AutoAWQ
cd AutoAWQ
pip3 install .
サンプルコードの実行
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_name_or_path = "TheBloke/MythoMax-L2-13B-AWQ"
model = AutoAWQForCausalLM.from_quantized(model_name_or_path, fuse_layers=True,
trust_remote_code=False, safetensors=True)
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=False)
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
print("\n\n*** Generate:")
tokens = tokenizer(
prompt_template,
return_tensors='pt'
).input_ids.cuda()
generation_output = model.generate(
tokens,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
max_new_tokens=512
)
print("Output: ", tokenizer.decode(generation_output[0]))
from transformers import pipeline
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
✨ 主な機能
- AWQ量子化:高速で高精度な低ビット量子化手法を使用しています。
- vLLM対応:vLLMを使用した高スループットの同時推論が可能です。
- 多様なモデル形式:AWQ、GPTQ、GGUFなどの複数の量子化形式のモデルが提供されています。
📦 インストール
必要なパッケージをインストールするには、以下のコマンドを実行してください。
pip3 install autoawq
事前構築済みホイールを使用してインストールできない場合は、ソースからインストールします。
pip3 uninstall -y autoawq
git clone https://github.com/casper-hansen/AutoAWQ
cd AutoAWQ
pip3 install .
📚 ドキュメント
モデルの詳細
このモデルは、MythoLogic-L2の強力な理解能力とHuginnの豊富な文章生成能力を融合したものです。各レイヤーは複数のテンソルで構成され、それぞれ特定の機能を担っています。このモデルでは、各テンソルに独自の比率を適用してマージしています。
プロンプト形式
このモデルは主にAlpaca形式のプロンプトを使用します。最適なパフォーマンスを得るには、以下の形式を使用してください。
<System prompt/Character Card>
### Instruction:
Your instruction or question here.
For roleplay purposes, I suggest the following - Write <CHAR NAME>'s next reply in a chat between <YOUR NAME> and <CHAR NAME>. Write a single reply only.
### Response:
🔧 技術詳細
AWQについて
AWQは、効率的で高精度な低ビット量子化手法で、現在4ビット量子化に対応しています。GPTQと比較して、Transformerベースの推論が高速です。また、連続バッチングサーバーのvLLMでもサポートされており、多ユーザーサーバーシナリオでの高スループットの同時推論が可能です。
提供されるファイルとAWQパラメータ
初回のAWQモデルリリースでは、128gのモデルのみをリリースしています。32gのモデルも追加する予定ですが、現時点ではAutoAWQとvLLMでのテストが完了していません。
ブランチ |
ビット |
GS |
AWQデータセット |
シーケンス長 |
サイズ |
main |
4 |
128 |
wikitext |
4096 |
7.25 GB |
📄 ライセンス
ソースモデルの作成者は、ライセンスをother
として指定しています。この量子化モデルも同じライセンスを使用しています。また、このモデルはLlama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となります。
ライセンスに関する質問や、これら2つのライセンスがどのように相互作用するかについては、元のモデルリポジトリのGryphe's MythoMax L2 13Bに問い合わせてください。
互換性
提供されるファイルは、AutoAWQとvLLMで動作することがテストされています。Huggingface Text Generation Inference (TGI)は現時点ではAWQと互換性がありませんが、サポートが追加される予定です。TGI PR #781を参照してください。
Discord
これらのモデルやAI全般についてのサポートや議論に参加するには、TheBloke AI's Discordサーバーに参加してください。
謝辞と貢献方法
chirper.aiチームとgpus.llm-utils.orgのClayに感謝します。
多くの方から貢献のお申し出をいただいています。モデルの提供や人々の支援を続けるために、皆さんの貢献を大いに歓迎します。貢献いただいた方には、AI/LLM/モデルに関する質問やリクエストに対する優先サポート、プライベートDiscordルームへのアクセスなどの特典を提供します。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別な感謝をAemon Algizに送ります。Patreonで支援していただいた皆さんにも深く感謝します。