MythoMax-L2-13B-AWQオープンソースモデル - 推論効率を向上させ、無料で高効率なAI体験を楽しめます！

ホーム

Mythomax L2 13B AWQ

TheBlokeによって開発

MythoMax L2 13BのAWQ量子化バージョンで、推論効率を効果的に向上させることができます。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #高効率4ビット量子化 #多形式推論サポート #長文生成

ダウンロード数 1,555

リリース時間 : 9/19/2023

モデル概要

これはGrypheのMythoMax L2 13Bモデルに基づくAWQ量子化バージョンで、主に高効率推論タスクに使用されます。

モデル特徴

高効率量子化

AWQ量子化方法を採用し、4ビット量子化をサポートし、GPTQと比較してTransformerベースのより高速な推論を提供します。

多プラットフォームサポート

連続バッチ処理サーバーvLLMをサポートし、多ユーザーサーバーシナリオで高スループットの並行推論を実現できます。

多形式利用可能

AWQ、GPTQ、GGUFなどの複数量子化形式のモデルファイルと、元の量子化されていないfp16モデルを提供します。

モデル能力

テキスト生成

高効率推論

多ユーザー並行処理

使用事例

テキスト生成

対話生成

自然言語対話の返信を生成するために使用されます。

流暢で首尾一貫した対話内容を生成します。

コンテンツ作成

執筆支援、ストーリー生成などの創造的なコンテンツ作成に使用されます。

創造性に富んだテキストコンテンツを生成します。

🚀 MythoMax L2 13B - AWQ

このモデルは、GrypheによるMythoMax L2 13BのAWQ形式のモデルファイルを提供します。AWQは、高速で高精度な低ビット量子化手法で、4ビット量子化に対応しています。GPTQと比較して、Transformerベースの推論が高速です。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

vLLMを使用したサービング

vLLMのインストールと使用方法については、こちらのドキュメントを参照してください。

vLLMをサーバーとして使用する場合は、--quantization awqパラメータを指定します。

python3 python -m vllm.entrypoints.api_server --model TheBloke/MythoMax-L2-13B-AWQ --quantization awq

PythonコードからvLLMを使用する場合は、quantization=awqパラメータを指定します。

from vllm import LLM, SamplingParams

prompts = [
    "Hello, my name is",
    "The president of the United States is",
    "The capital of France is",
    "The future of AI is",
]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

llm = LLM(model="TheBloke/MythoMax-L2-13B-AWQ", quantization="awq")

outputs = llm.generate(prompts, sampling_params)

# Print the outputs.
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

Pythonコードからの使用

このAWQモデルをPythonコードから使用するには、以下の手順に従ってください。

必要なパッケージのインストール

AutoAWQ 0.0.2以上が必要です。

pip3 install autoawq

AutoAWQの事前構築済みホイールを使用してインストールできない場合は、ソースからインストールしてください。

pip3 uninstall -y autoawq
git clone https://github.com/casper-hansen/AutoAWQ
cd AutoAWQ
pip3 install .

サンプルコードの実行

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_name_or_path = "TheBloke/MythoMax-L2-13B-AWQ"

# Load model
model = AutoAWQForCausalLM.from_quantized(model_name_or_path, fuse_layers=True,
                                          trust_remote_code=False, safetensors=True)
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=False)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

'''

print("\n\n*** Generate:")

tokens = tokenizer(
    prompt_template,
    return_tensors='pt'
).input_ids.cuda()

# Generate output
generation_output = model.generate(
    tokens,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    max_new_tokens=512
)

print("Output: ", tokenizer.decode(generation_output[0]))

# Inference can also be done using transformers' pipeline
from transformers import pipeline

print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

✨ 主な機能

AWQ量子化：高速で高精度な低ビット量子化手法を使用しています。
vLLM対応：vLLMを使用した高スループットの同時推論が可能です。
多様なモデル形式：AWQ、GPTQ、GGUFなどの複数の量子化形式のモデルが提供されています。

📦 インストール

必要なパッケージをインストールするには、以下のコマンドを実行してください。

pip3 install autoawq

事前構築済みホイールを使用してインストールできない場合は、ソースからインストールします。

pip3 uninstall -y autoawq
git clone https://github.com/casper-hansen/AutoAWQ
cd AutoAWQ
pip3 install .

📚 ドキュメント

モデルの詳細

このモデルは、MythoLogic-L2の強力な理解能力とHuginnの豊富な文章生成能力を融合したものです。各レイヤーは複数のテンソルで構成され、それぞれ特定の機能を担っています。このモデルでは、各テンソルに独自の比率を適用してマージしています。

プロンプト形式

このモデルは主にAlpaca形式のプロンプトを使用します。最適なパフォーマンスを得るには、以下の形式を使用してください。

<System prompt/Character Card>

### Instruction:
Your instruction or question here.
For roleplay purposes, I suggest the following - Write <CHAR NAME>'s next reply in a chat between <YOUR NAME> and <CHAR NAME>. Write a single reply only.

### Response:

🔧 技術詳細

AWQについて

AWQは、効率的で高精度な低ビット量子化手法で、現在4ビット量子化に対応しています。GPTQと比較して、Transformerベースの推論が高速です。また、連続バッチングサーバーのvLLMでもサポートされており、多ユーザーサーバーシナリオでの高スループットの同時推論が可能です。

提供されるファイルとAWQパラメータ

初回のAWQモデルリリースでは、128gのモデルのみをリリースしています。32gのモデルも追加する予定ですが、現時点ではAutoAWQとvLLMでのテストが完了していません。

ブランチ	ビット	GS	AWQデータセット	シーケンス長	サイズ
main	4	128	wikitext	4096	7.25 GB

📄 ライセンス

ソースモデルの作成者は、ライセンスをotherとして指定しています。この量子化モデルも同じライセンスを使用しています。また、このモデルはLlama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となります。

ライセンスに関する質問や、これら2つのライセンスがどのように相互作用するかについては、元のモデルリポジトリのGryphe's MythoMax L2 13Bに問い合わせてください。

互換性

提供されるファイルは、AutoAWQとvLLMで動作することがテストされています。Huggingface Text Generation Inference (TGI)は現時点ではAWQと互換性がありませんが、サポートが追加される予定です。TGI PR #781を参照してください。

Discord

これらのモデルやAI全般についてのサポートや議論に参加するには、TheBloke AI's Discordサーバーに参加してください。

謝辞と貢献方法

chirper.aiチームとgpus.llm-utils.orgのClayに感謝します。

多くの方から貢献のお申し出をいただいています。モデルの提供や人々の支援を続けるために、皆さんの貢献を大いに歓迎します。貢献いただいた方には、AI/LLM/モデルに関する質問やリクエストに対する優先サポート、プライベートDiscordルームへのアクセスなどの特典を提供します。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝をAemon Algizに送ります。Patreonで支援していただいた皆さんにも深く感謝します。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご