Yarn-Mistral-7B-128k-AWQオープンソース言語モデル - 128k長文脈ウィンドウでの対話交流をサポート

ホーム

Yarn Mistral 7B 128k AWQ

TheBlokeによって開発

Yarn Mistral 7B 128Kは、長文コンテキストに最適化された先進的な言語モデルで、YaRN拡張手法を用いて長文コンテキストデータで追加事前学習を行い、128kトークンのコンテキストウィンドウをサポートします。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #128k長文コンテキスト #効率的な推論最適化 #英文テキスト生成

ダウンロード数 483

リリース時間 : 11/2/2023

モデル概要

Mistral-7B-v0.1をベースに拡張した言語モデルで、長文コンテキスト処理に特化して最適化されており、超長文テキストを扱うさまざまな自然言語処理タスクに適しています。

モデル特徴

超長文コンテキストサポート

128kトークンのコンテキストウィンドウをサポートし、超長文コンテンツを処理できます。

効率的な量子化

AWQ量子化バージョンを提供し、品質を維持しながら推論効率を向上させます。

最適化された事前学習

YaRN手法を用いて長文コンテキストデータで1500ステップの追加事前学習を行いました。

モデル能力

長文テキスト生成

コンテキスト理解

テキスト継続

質問応答システム

使用事例

ドキュメント処理

長文ドキュメント要約

超長文ドキュメントの内容要約とキー情報抽出を行います。

法律文書分析

複雑な法律契約や条項を処理・分析します。

コード処理

コードベース分析

大規模なコードベースの構造と機能を理解します。

🚀 Yarn Mistral 7B 128K - AWQ

このモデルは、長文コンテキストに対応した最先端の言語モデルで、AWQ量子化を施して高速推論を可能にしています。

🚀 クイックスタート

このセクションでは、Yarn Mistral 7B 128K - AWQモデルの基本的な使い方を紹介します。

✨ 主な機能

AWQ量子化：効率的で高精度な低ビット重み量子化手法で、高速な推論を実現します。
長文コンテキスト対応：最大128kトークンのコンテキストウィンドウをサポートします。
複数の推論環境対応：text-generation-webui、vLLM、Hugging Face Text Generation Inference (TGI)、AutoAWQなどで使用可能です。

📦 インストール

text-generation-webuiを使用する場合

text-generation-webuiの最新バージョンを使用していることを確認してください。
テキスト生成WebUIのワンクリックインストーラーを使用することを強くおすすめします。
Model tabをクリックします。
Download custom model or LoRAの下に、TheBloke/Yarn-Mistral-7B-128k-AWQを入力します。
Downloadをクリックします。
モデルのダウンロードが完了すると、"Done"と表示されます。
左上のModelの横にある更新アイコンをクリックします。
Modelのドロップダウンメニューから、先ほどダウンロードしたモデルYarn-Mistral-7B-128k-AWQを選択します。
Loader: AutoAWQを選択します。
Loadをクリックすると、モデルがロードされ、使用可能になります。
カスタム設定が必要な場合は、設定を行ってから右上のSave settings for this modelをクリックし、続いてReload the Modelをクリックします。
準備ができたら、Text Generationタブをクリックし、プロンプトを入力して始めましょう！

AutoAWQを使用する場合

AutoAWQパッケージのインストール

AutoAWQ 0.1.1以上が必要です。

pip3 install autoawq

プレビルドのホイールを使用してAutoAWQをインストールする際に問題が発生した場合は、ソースからインストールしてください。

pip3 uninstall -y autoawq
git clone https://github.com/casper-hansen/AutoAWQ
cd AutoAWQ
pip3 install .

💻 使用例

基本的な使用法

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_name_or_path = "TheBloke/Yarn-Mistral-7B-128k-AWQ"

# トークナイザーのロード
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True)
# モデルのロード
model = AutoAWQForCausalLM.from_quantized(model_name_or_path, fuse_layers=True,
                                          trust_remote_code=True, safetensors=True)

prompt = "Tell me about AI"
prompt_template=f'''{prompt}
'''

print("*** Running model.generate:")

token_input = tokenizer(
    prompt_template,
    return_tensors='pt'
).input_ids.cuda()

# 出力の生成
generation_output = model.generate(
    token_input,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    max_new_tokens=512
)

# 出力からトークンを取得し、デコードして表示
token_output = generation_output[0]
text_output = tokenizer.decode(token_output)
print("LLM output: ", text_output)

高度な使用法

vLLMを使用したマルチユーザー推論サーバー

from vllm import LLM, SamplingParams

prompts = [
    "Tell me about AI",
    "Write a story about llamas",
    "What is 291 - 150?",
    "How much wood would a woodchuck chuck if a woodchuck could chuck wood?",
]
prompt_template=f'''{prompt}
'''

prompts = [prompt_template.format(prompt=prompt) for prompt in prompts]

sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

llm = LLM(model="TheBloke/Yarn-Mistral-7B-128k-AWQ", quantization="awq", dtype="auto")

outputs = llm.generate(prompts, sampling_params)

# 出力の表示
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

Hugging Face Text Generation Inference (TGI)を使用したマルチユーザー推論サーバー

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''{prompt}
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"Model output: ", response)

📚 ドキュメント

モデルの説明

このリポジトリには、NousResearch's Yarn Mistral 7B 128KのAWQモデルファイルが含まれています。これらのファイルは、Massed Computeによって提供されたハードウェアを使用して量子化されました。

利用可能なリポジトリ

プロンプトテンプレート

{prompt}

提供されるファイルとAWQパラメータ

初回のAWQモデルリリースでは、128gモデルのみをリリースしています。関心があれば32gモデルも追加することを検討します。ただし、現時点では32gモデルはAutoAWQとvLLMで完全にテストされていません。

モデルはシャーディングされたsafetensorsファイルとしてリリースされます。

ブランチ	ビット数	GS	AWQデータセット	シーケンス長	サイズ
main	4	128	wikitext	4096	4.15 GB

互換性

提供されるファイルは、以下の環境で動作することがテストされています。

text-generation-webui（Loader: AutoAWQを使用）
vLLMバージョン0.2.0以降
Hugging Face Text Generation Inference (TGI)バージョン1.1.0以降
AutoAWQバージョン0.1.1以降

🔧 技術詳細

AWQについて

AWQは、効率的で高精度かつ非常に高速な低ビット重み量子化手法で、現在は4ビット量子化をサポートしています。GPTQと比較して、最も一般的に使用されるGPTQ設定と同等またはそれ以上の品質で、Transformerベースの高速推論を提供します。

ベンチマーク

長文コンテキストベンチマーク

モデル	コンテキストウィンドウ	8k PPL	16k PPL	32k PPL	64k PPL	128k PPL
Mistral-7B-v0.1	8k	2.96	-	-	-	-
Yarn-Mistral-7b-64k	64k	3.04	2.65	2.44	2.20	-
Yarn-Mistral-7b-128k	128k	3.08	2.68	2.47	2.24	2.19

短文コンテキストベンチマーク（品質劣化が最小限であることを示す）

モデル	コンテキストウィンドウ	ARC-c	Hellaswag	MMLU	Truthful QA
Mistral-7B-v0.1	8k	-	-	-	-

📄 ライセンス

このモデルは、apache-2.0ライセンスの下で提供されています。

Discord

これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下のDiscordサーバーに参加してください。 TheBloke AI's Discord server

謝辞と貢献方法

chirper.aiチームに感謝します！ gpus.llm-utils.orgのClayに感謝します！

多くの方から貢献の可否を尋ねられています。私はモデルを提供し、人々の助けをすることが好きで、もっと多くの時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも進出したいと思っています。

貢献できる方は、大いに感謝し、より多くのモデルを提供し、新しいAIプロジェクトの作業を開始するのに役立ちます。

寄付者は、すべてのAI/LLM/モデルに関する質問や要求に対して優先的なサポートを受け、プライベートなDiscordルームへのアクセス権などの特典を受けることができます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝: Aemon Algiz。

Patreonでの特別な言及: Brandon Frisco, LangChain4j, Spiking Neurons AB, transmissions 11, Joseph William Delisle, Nitin Borwankar, Willem Michiel, Michael Dempsey, vamX, Jeffrey Morgan, zynix, jjj, Omer Bin Jawed, Sean Connelly, jinyuan sun, Jeromy Smith, Shadi, Pawan Osman, Chadd, Elijah Stavena, Illia Dulskyi, Sebastain Graf, Stephen Murray, terasurfer, Edmond Seymore, Celu Ramasamy, Mandus, Alex, biorpg, Ajan Kanaga, Clay Pascal, Raven Klaugh, 阿明, K, ya boyyy, usrbinkat, Alicia Loh, John Villwock, ReadyPlayerEmma, Chris Smitley, Cap'n Zoog, fincy, GodLy, S_X, sidney chen, Cory Kujawski, OG, Mano Prime, AzureBlack, Pieter, Kalila, Spencer Kim, Tom X Nguyen, Stanislav Ovsiannikov, Michael Levine, Andrey, Trailburnt, Vadim, Enrico Ros, Talal Aujan, Brandon Phillips, Jack West, Eugene Pentland, Michael Davis, Will Dee, webtim, Jonathan Leane, Alps Aficionado, Rooh Singh, Tiffany J. Kim, theTransient, Luke @flexchar, Elle, Caitlyn Gatomon, Ari Malik, subjectnull, Johann-Peter Hartmann, Trenton Dambrowitz, Imad Khwaja, Asp the Wyvern, Emad Mostaque, Rainer Wilmers, Alexandros Triantafyllidis, Nicholas, Pedro Madruga, SuperWojo, Harry Royden McLaughlin, James Bentley, Olakabola, David Ziegler, Ai Maven, Jeff Scroggin, Nikolai Manek, Deo Leter, Matthew Berman, Fen Risland, Ken Nordquist, Manuel Alberto Morcote, Luke Pendergrass, TL, Fred von Graf, Randy H, Dan Guido, NimbleBox.ai, Vitor Caleffi, Gabriel Tamborski, knownsqashed, Lone Striker, Erik Bjäreholt, John Detwiler, Leonard Tan, Iucharbius

すべての寛大なパトロンと寄付者の皆様に感謝します！また、a16zの寛大な助成金に再度感謝します。