モデル概要
モデル特徴
モデル能力
使用事例
🚀 Yarn Mistral 7B 128K - AWQ
このモデルは、長文コンテキストに対応した最先端の言語モデルで、AWQ量子化を施して高速推論を可能にしています。
🚀 クイックスタート
このセクションでは、Yarn Mistral 7B 128K - AWQモデルの基本的な使い方を紹介します。
✨ 主な機能
- AWQ量子化:効率的で高精度な低ビット重み量子化手法で、高速な推論を実現します。
- 長文コンテキスト対応:最大128kトークンのコンテキストウィンドウをサポートします。
- 複数の推論環境対応:text-generation-webui、vLLM、Hugging Face Text Generation Inference (TGI)、AutoAWQなどで使用可能です。
📦 インストール
text-generation-webuiを使用する場合
- text-generation-webuiの最新バージョンを使用していることを確認してください。
- テキスト生成WebUIのワンクリックインストーラーを使用することを強くおすすめします。
- Model tabをクリックします。
- Download custom model or LoRAの下に、
TheBloke/Yarn-Mistral-7B-128k-AWQ
を入力します。 - Downloadをクリックします。
- モデルのダウンロードが完了すると、"Done"と表示されます。
- 左上のModelの横にある更新アイコンをクリックします。
- Modelのドロップダウンメニューから、先ほどダウンロードしたモデル
Yarn-Mistral-7B-128k-AWQ
を選択します。 - Loader: AutoAWQを選択します。
- Loadをクリックすると、モデルがロードされ、使用可能になります。
- カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
- 準備ができたら、Text Generationタブをクリックし、プロンプトを入力して始めましょう!
AutoAWQを使用する場合
AutoAWQパッケージのインストール
AutoAWQ 0.1.1以上が必要です。
pip3 install autoawq
プレビルドのホイールを使用してAutoAWQをインストールする際に問題が発生した場合は、ソースからインストールしてください。
pip3 uninstall -y autoawq
git clone https://github.com/casper-hansen/AutoAWQ
cd AutoAWQ
pip3 install .
💻 使用例
基本的な使用法
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_name_or_path = "TheBloke/Yarn-Mistral-7B-128k-AWQ"
# トークナイザーのロード
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True)
# モデルのロード
model = AutoAWQForCausalLM.from_quantized(model_name_or_path, fuse_layers=True,
trust_remote_code=True, safetensors=True)
prompt = "Tell me about AI"
prompt_template=f'''{prompt}
'''
print("*** Running model.generate:")
token_input = tokenizer(
prompt_template,
return_tensors='pt'
).input_ids.cuda()
# 出力の生成
generation_output = model.generate(
token_input,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
max_new_tokens=512
)
# 出力からトークンを取得し、デコードして表示
token_output = generation_output[0]
text_output = tokenizer.decode(token_output)
print("LLM output: ", text_output)
高度な使用法
vLLMを使用したマルチユーザー推論サーバー
from vllm import LLM, SamplingParams
prompts = [
"Tell me about AI",
"Write a story about llamas",
"What is 291 - 150?",
"How much wood would a woodchuck chuck if a woodchuck could chuck wood?",
]
prompt_template=f'''{prompt}
'''
prompts = [prompt_template.format(prompt=prompt) for prompt in prompts]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="TheBloke/Yarn-Mistral-7B-128k-AWQ", quantization="awq", dtype="auto")
outputs = llm.generate(prompts, sampling_params)
# 出力の表示
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
Hugging Face Text Generation Inference (TGI)を使用したマルチユーザー推論サーバー
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''{prompt}
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1)
print(f"Model output: ", response)
📚 ドキュメント
モデルの説明
このリポジトリには、NousResearch's Yarn Mistral 7B 128KのAWQモデルファイルが含まれています。これらのファイルは、Massed Computeによって提供されたハードウェアを使用して量子化されました。
利用可能なリポジトリ
- GPU推論用のAWQモデル
- GPU推論用のGPTQモデル(複数の量子化パラメータオプションあり)
- CPU+GPU推論用の2、3、4、5、6、および8ビットGGUFモデル
- NousResearchの元の未量子化fp16モデル(pytorch形式、GPU推論およびさらなる変換用)
プロンプトテンプレート
{prompt}
提供されるファイルとAWQパラメータ
初回のAWQモデルリリースでは、128gモデルのみをリリースしています。関心があれば32gモデルも追加することを検討します。ただし、現時点では32gモデルはAutoAWQとvLLMで完全にテストされていません。
モデルはシャーディングされたsafetensorsファイルとしてリリースされます。
ブランチ | ビット数 | GS | AWQデータセット | シーケンス長 | サイズ |
---|---|---|---|---|---|
main | 4 | 128 | wikitext | 4096 | 4.15 GB |
互換性
提供されるファイルは、以下の環境で動作することがテストされています。
- text-generation-webui(
Loader: AutoAWQ
を使用) - vLLMバージョン0.2.0以降
- Hugging Face Text Generation Inference (TGI)バージョン1.1.0以降
- AutoAWQバージョン0.1.1以降
🔧 技術詳細
AWQについて
AWQは、効率的で高精度かつ非常に高速な低ビット重み量子化手法で、現在は4ビット量子化をサポートしています。GPTQと比較して、最も一般的に使用されるGPTQ設定と同等またはそれ以上の品質で、Transformerベースの高速推論を提供します。
ベンチマーク
長文コンテキストベンチマーク
モデル | コンテキストウィンドウ | 8k PPL | 16k PPL | 32k PPL | 64k PPL | 128k PPL |
---|---|---|---|---|---|---|
Mistral-7B-v0.1 | 8k | 2.96 | - | - | - | - |
Yarn-Mistral-7b-64k | 64k | 3.04 | 2.65 | 2.44 | 2.20 | - |
Yarn-Mistral-7b-128k | 128k | 3.08 | 2.68 | 2.47 | 2.24 | 2.19 |
短文コンテキストベンチマーク(品質劣化が最小限であることを示す)
モデル | コンテキストウィンドウ | ARC-c | Hellaswag | MMLU | Truthful QA |
---|---|---|---|---|---|
Mistral-7B-v0.1 | 8k | - | - | - | - |
📄 ライセンス
このモデルは、apache-2.0ライセンスの下で提供されています。
Discord
これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下のDiscordサーバーに参加してください。 TheBloke AI's Discord server
謝辞と貢献方法
chirper.aiチームに感謝します! gpus.llm-utils.orgのClayに感謝します!
多くの方から貢献の可否を尋ねられています。私はモデルを提供し、人々の助けをすることが好きで、もっと多くの時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出したいと思っています。
貢献できる方は、大いに感謝し、より多くのモデルを提供し、新しいAIプロジェクトの作業を開始するのに役立ちます。
寄付者は、すべてのAI/LLM/モデルに関する質問や要求に対して優先的なサポートを受け、プライベートなDiscordルームへのアクセス権などの特典を受けることができます。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別な感謝: Aemon Algiz。
Patreonでの特別な言及: Brandon Frisco, LangChain4j, Spiking Neurons AB, transmissions 11, Joseph William Delisle, Nitin Borwankar, Willem Michiel, Michael Dempsey, vamX, Jeffrey Morgan, zynix, jjj, Omer Bin Jawed, Sean Connelly, jinyuan sun, Jeromy Smith, Shadi, Pawan Osman, Chadd, Elijah Stavena, Illia Dulskyi, Sebastain Graf, Stephen Murray, terasurfer, Edmond Seymore, Celu Ramasamy, Mandus, Alex, biorpg, Ajan Kanaga, Clay Pascal, Raven Klaugh, 阿明, K, ya boyyy, usrbinkat, Alicia Loh, John Villwock, ReadyPlayerEmma, Chris Smitley, Cap'n Zoog, fincy, GodLy, S_X, sidney chen, Cory Kujawski, OG, Mano Prime, AzureBlack, Pieter, Kalila, Spencer Kim, Tom X Nguyen, Stanislav Ovsiannikov, Michael Levine, Andrey, Trailburnt, Vadim, Enrico Ros, Talal Aujan, Brandon Phillips, Jack West, Eugene Pentland, Michael Davis, Will Dee, webtim, Jonathan Leane, Alps Aficionado, Rooh Singh, Tiffany J. Kim, theTransient, Luke @flexchar, Elle, Caitlyn Gatomon, Ari Malik, subjectnull, Johann-Peter Hartmann, Trenton Dambrowitz, Imad Khwaja, Asp the Wyvern, Emad Mostaque, Rainer Wilmers, Alexandros Triantafyllidis, Nicholas, Pedro Madruga, SuperWojo, Harry Royden McLaughlin, James Bentley, Olakabola, David Ziegler, Ai Maven, Jeff Scroggin, Nikolai Manek, Deo Leter, Matthew Berman, Fen Risland, Ken Nordquist, Manuel Alberto Morcote, Luke Pendergrass, TL, Fred von Graf, Randy H, Dan Guido, NimbleBox.ai, Vitor Caleffi, Gabriel Tamborski, knownsqashed, Lone Striker, Erik Bjäreholt, John Detwiler, Leonard Tan, Iucharbius
すべての寛大なパトロンと寄付者の皆様に感謝します! また、a16zの寛大な助成金に再度感謝します。



