Mythalion Kimiko V2 AWQ

TheBlokeによって開発

Mythalion Kimiko v2 - AWQは、nRuaifによって作成されたMythalion Kimiko v2モデルのAWQ量子化バージョンで、高効率、高精度、高速推論などの特徴を持っています。

大規模言語モデル

Transformers

オープンソースライセンス:その他 #4ビット量子化 #高効率推論 #多フレームワーク互換

ダウンロード数 403

リリース時間 : 12/14/2023

モデル概要

このモデルはMythalion Kimiko v2のAWQ量子化バージョンで、4ビット量子化をサポートし、高効率推論に適しています。

モデル特徴

高効率推論

AWQ 4ビット量子化技術を採用しており、GPTQと比較してTransformerベースの推論ではより高速です。

多バージョンサポート

AWQ、GPTQ、GGUFなどの複数の量子化バージョンのモデルを提供し、さまざまな推論シナリオに適しています。

広範な互換性

Text Generation Webui、vLLM、TGI、Transformersなどの複数の推論ツールとフレームワークをサポートしています。

モデル能力

テキスト生成

高効率推論

使用事例

テキスト生成

AI関連の質問応答

人工知能に関する質問に回答する

ストーリー作成

特定のテーマに関するストーリーを生成する

🚀 Mythalion Kimiko v2 - AWQ

このモデルは、nRuaif氏によるMythalion Kimiko v2をAWQ方式で量子化したものです。AWQは高速で高精度な低ビット量子化手法で、LinuxとWindowsのNVidia GPUでの推論に対応しています。

🚀 クイックスタート

このセクションでは、Mythalion Kimiko v2 - AWQモデルの基本的な使い方を説明します。

✨ 主な機能

AWQ量子化：高速で高精度な低ビット量子化手法を採用。
複数の推論環境対応：text-generation-webui、vLLM、Hugging Face Text Generation Inference (TGI)、Transformersなどでの使用が可能。

📦 インストール

text-generation-webuiでのインストール

text-generation-webuiの最新バージョンを使用していることを確認してください。
Model tabをクリックします。
Download custom model or LoRAの下にTheBloke/Mythalion-Kimiko-v2-AWQを入力します。
Downloadをクリックします。
モデルのダウンロードが完了すると、"Done"と表示されます。
左上のModel横の更新アイコンをクリックします。
Modelのドロップダウンから、ダウンロードしたモデルMythalion-Kimiko-v2-AWQを選択します。
Loader: AutoAWQを選択します。
Loadをクリックすると、モデルがロードされ、使用可能になります。
カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
準備ができたら、Text Generationタブをクリックし、プロンプトを入力して始めましょう！

Pythonコードからのインストール

必要なパッケージをインストールします。

pip3 install --upgrade "autoawq>=0.1.6" "transformers>=4.35.0"

ただし、PyTorch 2.0.1を使用している場合、上記のAutoAWQコマンドで自動的にPyTorch 2.1.0にアップグレードされます。CUDA 11.8を使用しており、PyTorch 2.0.1を引き続き使用したい場合は、以下のコマンドを実行してください。

pip3 install https://github.com/casper-hansen/AutoAWQ/releases/download/v0.1.6/autoawq-0.1.6+cu118-cp310-cp310-linux_x86_64.whl

AutoAWQのプレビルド済みホイールを使用してインストールに問題がある場合は、ソースからインストールしてください。

pip3 uninstall -y autoawq
git clone https://github.com/casper-hansen/AutoAWQ
cd AutoAWQ
pip3 install .

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

model_name_or_path = "TheBloke/Mythalion-Kimiko-v2-AWQ"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(
    model_name_or_path,
    low_cpu_mem_usage=True,
    device_map="cuda:0"
)

# Using the text streamer to stream output one token at a time
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

prompt = "Tell me about AI"
prompt_template=f'''{prompt}
'''

# Convert prompt to tokens
tokens = tokenizer(
    prompt_template,
    return_tensors='pt'
).input_ids.cuda()

generation_params = {
    "do_sample": True,
    "temperature": 0.7,
    "top_p": 0.95,
    "top_k": 40,
    "max_new_tokens": 512,
    "repetition_penalty": 1.1
}

# Generate streamed output, visible one token at a time
generation_output = model.generate(
    tokens,
    streamer=streamer,
    **generation_params
)

# Generation without a streamer, which will include the prompt in the output
generation_output = model.generate(
    tokens,
    **generation_params
)

# Get the tokens from the output, decode them, print them
token_output = generation_output[0]
text_output = tokenizer.decode(token_output)
print("model.generate output: ", text_output)

# Inference is also possible via Transformers' pipeline
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    **generation_params
)

pipe_output = pipe(prompt_template)[0]['generated_text']
print("pipeline output: ", pipe_output)

高度な使用法

from vllm import LLM, SamplingParams

prompts = [
    "Tell me about AI",
    "Write a story about llamas",
    "What is 291 - 150?",
    "How much wood would a woodchuck chuck if a woodchuck could chuck wood?",
]
prompt_template=f'''{prompt}
'''

prompts = [prompt_template.format(prompt=prompt) for prompt in prompts]

sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

llm = LLM(model="TheBloke/Mythalion-Kimiko-v2-AWQ", quantization="awq", dtype="auto")

outputs = llm.generate(prompts, sampling_params)

# Print the outputs.
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

📚 ドキュメント

モデルの説明

このリポジトリには、nRuaif's Mythalion Kimiko v2のAWQモデルファイルが含まれています。これらのファイルは、Massed Computeにより提供されたハードウェアを使用して量子化されました。

AWQについて

AWQは、効率的で高精度かつ非常に高速な低ビット重み量子化手法で、現在は4ビット量子化をサポートしています。GPTQと比較すると、同等またはそれ以上の品質で、Transformerベースの推論をより高速に行うことができます。

AWQモデルは現在、LinuxとWindowsでNVidia GPUのみサポートされています。macOSユーザーは、代わりにGGUFモデルを使用してください。

以下の環境でサポートされています。

Text Generation Webui - Loader: AutoAWQを使用
vLLM - バージョン0.2.2以降ですべてのモデルタイプをサポート
Hugging Face Text Generation Inference (TGI)
Transformers バージョン4.35.0以降、Transformersをサポートする任意のコードまたはクライアントから
AutoAWQ - Pythonコードから使用する場合

利用可能なリポジトリ

プロンプトテンプレート

{prompt}

提供されるファイルとAWQパラメータ

現在は、128g GEMMモデルのみをリリースしています。グループサイズ32のモデルとGEMVカーネルモデルの追加が積極的に検討されています。

モデルは、シャーディングされたsafetensorsファイルとしてリリースされます。

ブランチ	ビット数	GS	AWQデータセット	シーケンス長	サイズ
main	4	128	VMware Open Instruct	4096	7.25 GB

互換性

提供されるファイルは、以下の環境で動作することがテストされています。

text-generation-webui Loader: AutoAWQを使用
vLLM バージョン0.2.0以降
Hugging Face Text Generation Inference (TGI) バージョン1.1.0以降
Transformers バージョン4.35.0以降
AutoAWQ バージョン0.1.1以降

🔧 技術詳細

AWQは、効率的で高精度かつ非常に高速な低ビット重み量子化手法です。現在は4ビット量子化をサポートしており、GPTQと比較すると、同等またはそれ以上の品質で、Transformerベースの推論をより高速に行うことができます。

📄 ライセンス

このモデルのライセンスは、otherです。

Discord

これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下に参加してください。

TheBloke AI's Discord server

謝辞と貢献方法

chirper.aiチームに感謝します！

gpus.llm-utils.orgのClayに感謝します！

多くの方から貢献の可否を尋ねられています。私はモデルを提供し、人々を助けることが好きで、それにもっと時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出したいと思っています。

貢献できる方は、大いに歓迎します。これにより、私がより多くのモデルを提供し、新しいAIプロジェクトの開発を始めるのに役立ちます。

寄付者は、すべてのAI/LLM/モデルに関する質問やリクエストに対する優先サポート、プライベートDiscordルームへのアクセス、その他の特典を受けることができます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝を：Aemon Algiz。

Patreonで特別に言及する：Michael Levine, 阿明, Trailburnt, Nikolai Manek, John Detwiler, Randy H, Will Dee, Sebastain Graf, NimbleBox.ai, Eugene Pentland, Emad Mostaque, Ai Maven, Jim Angel, Jeff Scroggin, Michael Davis, Manuel Alberto Morcote, Stephen Murray, Robert, Justin Joy, Luke @flexchar, Brandon Frisco, Elijah Stavena, S_X, Dan Guido, Undi ., Komninos Chatzipapas, Shadi, theTransient, Lone Striker, Raven Klaugh, jjj, Cap'n Zoog, Michel-Marie MAUDET (LINAGORA), Matthew Berman, David, Fen Risland, Omer Bin Jawed, Luke Pendergrass, Kalila, OG, Erik Bjäreholt, Rooh Singh, Joseph William Delisle, Dan Lewis, TL, John Villwock, AzureBlack, Brad, Pedro Madruga, Caitlyn Gatomon, K, jinyuan sun, Mano Prime, Alex, Jeffrey Morgan, Alicia Loh, Illia Dulskyi, Chadd, transmissions 11, fincy, Rainer Wilmers, ReadyPlayerEmma, knownsqashed, Mandus, biorpg, Deo Leter, Brandon Phillips, SuperWojo, Sean Connelly, Iucharbius, Jack West, Harry Royden McLaughlin, Nicholas, terasurfer, Vitor Caleffi, Duane Dunston, Johann-Peter Hartmann, David Ziegler, Olakabola, Ken Nordquist, Trenton Dambrowitz, Tom X Nguyen, Vadim, Ajan Kanaga, Leonard Tan, Clay Pascal, Alexandros Triantafyllidis, JM33133, Xule, vamX, ya boyyy, subjectnull, Talal Aujan, Alps Aficionado, wassieverse, Ari Malik, James Bentley, Woland, Spencer Kim, Michael Dempsey, Fred von Graf, Elle, zynix, William Richards, Stanislav Ovsiannikov, Edmond Seymore, Jonathan Leane, Martin Kemka, usrbinkat, Enrico Ros

すべての寛大なパトロンと寄付者の皆様に感謝します！

そして、a16zにも彼らの寛大な助成金に感謝します。