モデル概要
モデル特徴
モデル能力
使用事例
🚀 Mythalion Kimiko v2 - AWQ
このモデルは、nRuaif氏によるMythalion Kimiko v2をAWQ方式で量子化したものです。AWQは高速で高精度な低ビット量子化手法で、LinuxとWindowsのNVidia GPUでの推論に対応しています。
🚀 クイックスタート
このセクションでは、Mythalion Kimiko v2 - AWQモデルの基本的な使い方を説明します。
✨ 主な機能
- AWQ量子化:高速で高精度な低ビット量子化手法を採用。
- 複数の推論環境対応:text-generation-webui、vLLM、Hugging Face Text Generation Inference (TGI)、Transformersなどでの使用が可能。
📦 インストール
text-generation-webuiでのインストール
- text-generation-webuiの最新バージョンを使用していることを確認してください。
- Model tabをクリックします。
- Download custom model or LoRAの下に
TheBloke/Mythalion-Kimiko-v2-AWQ
を入力します。 - Downloadをクリックします。
- モデルのダウンロードが完了すると、"Done"と表示されます。
- 左上のModel横の更新アイコンをクリックします。
- Modelのドロップダウンから、ダウンロードしたモデル
Mythalion-Kimiko-v2-AWQ
を選択します。 - Loader: AutoAWQを選択します。
- Loadをクリックすると、モデルがロードされ、使用可能になります。
- カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
- 準備ができたら、Text Generationタブをクリックし、プロンプトを入力して始めましょう!
Pythonコードからのインストール
必要なパッケージをインストールします。
pip3 install --upgrade "autoawq>=0.1.6" "transformers>=4.35.0"
ただし、PyTorch 2.0.1を使用している場合、上記のAutoAWQコマンドで自動的にPyTorch 2.1.0にアップグレードされます。CUDA 11.8を使用しており、PyTorch 2.0.1を引き続き使用したい場合は、以下のコマンドを実行してください。
pip3 install https://github.com/casper-hansen/AutoAWQ/releases/download/v0.1.6/autoawq-0.1.6+cu118-cp310-cp310-linux_x86_64.whl
AutoAWQのプレビルド済みホイールを使用してインストールに問題がある場合は、ソースからインストールしてください。
pip3 uninstall -y autoawq
git clone https://github.com/casper-hansen/AutoAWQ
cd AutoAWQ
pip3 install .
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
model_name_or_path = "TheBloke/Mythalion-Kimiko-v2-AWQ"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(
model_name_or_path,
low_cpu_mem_usage=True,
device_map="cuda:0"
)
# Using the text streamer to stream output one token at a time
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
prompt = "Tell me about AI"
prompt_template=f'''{prompt}
'''
# Convert prompt to tokens
tokens = tokenizer(
prompt_template,
return_tensors='pt'
).input_ids.cuda()
generation_params = {
"do_sample": True,
"temperature": 0.7,
"top_p": 0.95,
"top_k": 40,
"max_new_tokens": 512,
"repetition_penalty": 1.1
}
# Generate streamed output, visible one token at a time
generation_output = model.generate(
tokens,
streamer=streamer,
**generation_params
)
# Generation without a streamer, which will include the prompt in the output
generation_output = model.generate(
tokens,
**generation_params
)
# Get the tokens from the output, decode them, print them
token_output = generation_output[0]
text_output = tokenizer.decode(token_output)
print("model.generate output: ", text_output)
# Inference is also possible via Transformers' pipeline
from transformers import pipeline
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
**generation_params
)
pipe_output = pipe(prompt_template)[0]['generated_text']
print("pipeline output: ", pipe_output)
高度な使用法
from vllm import LLM, SamplingParams
prompts = [
"Tell me about AI",
"Write a story about llamas",
"What is 291 - 150?",
"How much wood would a woodchuck chuck if a woodchuck could chuck wood?",
]
prompt_template=f'''{prompt}
'''
prompts = [prompt_template.format(prompt=prompt) for prompt in prompts]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="TheBloke/Mythalion-Kimiko-v2-AWQ", quantization="awq", dtype="auto")
outputs = llm.generate(prompts, sampling_params)
# Print the outputs.
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
📚 ドキュメント
モデルの説明
このリポジトリには、nRuaif's Mythalion Kimiko v2のAWQモデルファイルが含まれています。これらのファイルは、Massed Computeにより提供されたハードウェアを使用して量子化されました。
AWQについて
AWQは、効率的で高精度かつ非常に高速な低ビット重み量子化手法で、現在は4ビット量子化をサポートしています。GPTQと比較すると、同等またはそれ以上の品質で、Transformerベースの推論をより高速に行うことができます。
AWQモデルは現在、LinuxとWindowsでNVidia GPUのみサポートされています。macOSユーザーは、代わりにGGUFモデルを使用してください。
以下の環境でサポートされています。
- Text Generation Webui - Loader: AutoAWQを使用
- vLLM - バージョン0.2.2以降ですべてのモデルタイプをサポート
- Hugging Face Text Generation Inference (TGI)
- Transformers バージョン4.35.0以降、Transformersをサポートする任意のコードまたはクライアントから
- AutoAWQ - Pythonコードから使用する場合
利用可能なリポジトリ
- GPU推論用のAWQモデル
- 複数の量子化パラメータオプションを持つGPU推論用のGPTQモデル
- CPU+GPU推論用の2、3、4、5、6および8ビットのGGUFモデル
- GPU推論およびさらなる変換用のnRuaifの元の量子化されていないfp16モデル(pytorch形式)
プロンプトテンプレート
{prompt}
提供されるファイルとAWQパラメータ
現在は、128g GEMMモデルのみをリリースしています。グループサイズ32のモデルとGEMVカーネルモデルの追加が積極的に検討されています。
モデルは、シャーディングされたsafetensorsファイルとしてリリースされます。
ブランチ | ビット数 | GS | AWQデータセット | シーケンス長 | サイズ |
---|---|---|---|---|---|
main | 4 | 128 | VMware Open Instruct | 4096 | 7.25 GB |
互換性
提供されるファイルは、以下の環境で動作することがテストされています。
- text-generation-webui
Loader: AutoAWQ
を使用 - vLLM バージョン0.2.0以降
- Hugging Face Text Generation Inference (TGI) バージョン1.1.0以降
- Transformers バージョン4.35.0以降
- AutoAWQ バージョン0.1.1以降
🔧 技術詳細
AWQは、効率的で高精度かつ非常に高速な低ビット重み量子化手法です。現在は4ビット量子化をサポートしており、GPTQと比較すると、同等またはそれ以上の品質で、Transformerベースの推論をより高速に行うことができます。
📄 ライセンス
このモデルのライセンスは、otherです。
Discord
これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下に参加してください。
謝辞と貢献方法
chirper.aiチームに感謝します!
gpus.llm-utils.orgのClayに感謝します!
多くの方から貢献の可否を尋ねられています。私はモデルを提供し、人々を助けることが好きで、それにもっと時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出したいと思っています。
貢献できる方は、大いに歓迎します。これにより、私がより多くのモデルを提供し、新しいAIプロジェクトの開発を始めるのに役立ちます。
寄付者は、すべてのAI/LLM/モデルに関する質問やリクエストに対する優先サポート、プライベートDiscordルームへのアクセス、その他の特典を受けることができます。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別な感謝を:Aemon Algiz。
Patreonで特別に言及する:Michael Levine, 阿明, Trailburnt, Nikolai Manek, John Detwiler, Randy H, Will Dee, Sebastain Graf, NimbleBox.ai, Eugene Pentland, Emad Mostaque, Ai Maven, Jim Angel, Jeff Scroggin, Michael Davis, Manuel Alberto Morcote, Stephen Murray, Robert, Justin Joy, Luke @flexchar, Brandon Frisco, Elijah Stavena, S_X, Dan Guido, Undi ., Komninos Chatzipapas, Shadi, theTransient, Lone Striker, Raven Klaugh, jjj, Cap'n Zoog, Michel-Marie MAUDET (LINAGORA), Matthew Berman, David, Fen Risland, Omer Bin Jawed, Luke Pendergrass, Kalila, OG, Erik Bjäreholt, Rooh Singh, Joseph William Delisle, Dan Lewis, TL, John Villwock, AzureBlack, Brad, Pedro Madruga, Caitlyn Gatomon, K, jinyuan sun, Mano Prime, Alex, Jeffrey Morgan, Alicia Loh, Illia Dulskyi, Chadd, transmissions 11, fincy, Rainer Wilmers, ReadyPlayerEmma, knownsqashed, Mandus, biorpg, Deo Leter, Brandon Phillips, SuperWojo, Sean Connelly, Iucharbius, Jack West, Harry Royden McLaughlin, Nicholas, terasurfer, Vitor Caleffi, Duane Dunston, Johann-Peter Hartmann, David Ziegler, Olakabola, Ken Nordquist, Trenton Dambrowitz, Tom X Nguyen, Vadim, Ajan Kanaga, Leonard Tan, Clay Pascal, Alexandros Triantafyllidis, JM33133, Xule, vamX, ya boyyy, subjectnull, Talal Aujan, Alps Aficionado, wassieverse, Ari Malik, James Bentley, Woland, Spencer Kim, Michael Dempsey, Fred von Graf, Elle, zynix, William Richards, Stanislav Ovsiannikov, Edmond Seymore, Jonathan Leane, Martin Kemka, usrbinkat, Enrico Ros
すべての寛大なパトロンと寄付者の皆様に感謝します!
そして、a16zにも彼らの寛大な助成金に感謝します。
オリジナルモデルカード: nRuaif's Mythalion Kimiko v2
オリジナルのモデルカードは利用できませんでした。



