Wizardcoder Python 13B V1.0 GPTQ

TheBlokeによって開発

WizardCoder Python 13B V1.0はWizardLMによって開発された大規模言語モデルで、Pythonコード生成タスクに特化しており、llama2アーキテクチャに基づいており、HumanEvalベンチマークテストで優れた性能を発揮します。

大規模言語モデル

Transformers

#コード生成 #Python最適化 #大規模モデルの量子化

ダウンロード数 309

リリース時間 : 8/27/2023

モデル概要

これは13Bパラメータのコード生成モデルで、特にPythonプログラミング言語に最適化されており、コード補完、生成、および解釈などのタスクに使用できます。

モデル特徴

高性能コード生成

HumanEvalベンチマークテストで64.0 pass@1の高いスコアを達成し、多くの同類のモデルより優れています。

Python特化

特にPythonプログラミング言語に最適化されており、高品質のPythonコードを生成できます。

複数の量子化バージョン

複数のGPTQ量子化バージョンを提供し、さまざまなハードウェア構成の要件に対応します。

モデル能力

Pythonコード生成

コード補完

コード解釈

命令追従

使用事例

ソフトウェア開発

自動コード生成

自然言語の説明に基づいて自動的にPythonコードを生成します。

開発効率を大幅に向上させることができます。

コード補完

IDEでスマートなコード補完提案を提供します。

コーディングエラーを減らし、開発速度を向上させます。

教育

プログラミング教育支援

教育用のサンプルコードを生成したり、プログラミング概念を説明したりします。

学習者がPythonプログラミングを理解するのを助けます。

🚀 WizardCoder Python 13B V1.0 - GPTQ

このモデルは、コード生成タスクに特化した高性能な言語モデルです。WizardLMによって開発され、高い精度でコードを生成することができます。

チャットとサポート: TheBlokeのDiscordサーバー

貢献したい方はこちら: TheBlokeのPatreonページ

TheBlokeのLLMに関する作業は、andreessen horowitz (a16z)からの助成金によって支援されています。

🚀 クイックスタート

このセクションでは、WizardCoder-Python-13B-V1.0-GPTQモデルの基本的な使い方を説明します。

✨ 主な機能

高精度なコード生成: HumanEvalデータセットで0.64のpass@1を達成。
複数の量子化パラメータ: ハードウェアと要件に合わせて最適なパラメータを選択できます。
複数のモデル形式: GPTQ、GGUF、元の未量子化fp16モデルなど、様々な形式で利用可能。

📦 インストール

必要なパッケージのインストール

pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # CUDA 11.7の場合はcu117を使用

CodeLlamaモデルの場合

Transformers 4.33.0以上を使用する必要があります。

pip3 uninstall -y transformers
pip3 install git+https://github.com/huggingface/transformers.git

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/WizardCoder-Python-13B-V1.0-GPTQ"
# 別のブランチを使用する場合は、revisionを変更します
# 例: revision="main"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# Inference can also be done using transformers' pipeline

print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

📚 ドキュメント

説明

このリポジトリには、WizardLMのWizardCoder Python 13B V1.0のGPTQモデルファイルが含まれています。

利用可能なリポジトリ

プロンプトテンプレート: Alpaca

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

提供されているファイルとGPTQパラメータ

複数の量子化パラメータが提供されており、ハードウェアと要件に合わせて最適なものを選択できます。

各量子化は異なるブランチにあります。異なるブランチから取得する方法については、以下を参照してください。

最近のすべてのGPTQファイルはAutoGPTQで作成されており、メインブランチ以外のすべてのファイルもAutoGPTQで作成されています。2023年8月以前にアップロードされたmainブランチのファイルは、GPTQ-for-LLaMaで作成されています。

GPTQパラメータの説明

Bits: 量子化モデルのビットサイズ。
GS: GPTQグループサイズ。数値が大きいほどVRAMの使用量が少なくなりますが、量子化精度が低下します。"None"は最小値です。
Act Order: TrueまたはFalse。desc_actとも呼ばれます。Trueの場合、量子化精度が向上します。一部のGPTQクライアントでは、Act OrderとGroup Sizeを併用したモデルに問題がありましたが、現在はほとんど解決しています。
Damp %: 量子化のためにサンプルが処理される方法に影響を与えるGPTQパラメータ。デフォルトは0.01ですが、0.1の方がわずかに精度が良くなります。
GPTQデータセット: 量子化に使用されるデータセット。モデルのトレーニングに適したデータセットを使用すると、量子化精度が向上します。GPTQデータセットは、モデルのトレーニングに使用されるデータセットとは異なることに注意してください。トレーニングデータセットの詳細については、元のモデルリポジトリを参照してください。
シーケンス長: 量子化に使用されるデータセットシーケンスの長さ。理想的には、モデルのシーケンス長と同じです。非常に長いシーケンスモデル（16+K）の場合、より短いシーケンス長を使用する必要がある場合があります。ただし、短いシーケンス長は量子化モデルのシーケンス長を制限するものではありません。長い推論シーケンスでの量子化精度にのみ影響します。
ExLlama互換性: このファイルがExLlamaで読み込めるかどうか。現在、ExLlamaは4ビットのLlamaモデルのみをサポートしています。

ブランチ	ビット	GS	Act Order	Damp %	GPTQデータセット	シーケンス長	サイズ	ExLlama	説明
main	4	128	いいえ	0.1	Evol Instruct Code	8192	7.26 GB	はい	4ビット、Act Orderなし、グループサイズ128g。
gptq-4bit-32g-actorder_True	4	32	はい	0.1	Evol Instruct Code	8192	8.00 GB	はい	4ビット、Act Orderあり、グループサイズ32g。最高の推論品質を提供しますが、最大のVRAMを使用します。
gptq-4bit-64g-actorder_True	4	64	はい	0.1	Evol Instruct Code	8192	7.51 GB	はい	4ビット、Act Orderあり、グループサイズ64g。32gよりもVRAMの使用量が少ないですが、精度はわずかに低くなります。
gptq-4bit-128g-actorder_True	4	128	はい	0.1	Evol Instruct Code	8192	7.26 GB	はい	4ビット、Act Orderあり、グループサイズ128g。64gよりもさらにVRAMの使用量が少ないですが、精度はわずかに低くなります。
gptq-8bit--1g-actorder_True	8	なし	はい	0.1	Evol Instruct Code	8192	13.36 GB	いいえ	8ビット、Act Orderあり。グループサイズなしで、VRAMの要件を低く抑えます。
gptq-8bit-128g-actorder_True	8	128	はい	0.1	Evol Instruct Code	8192	13.65 GB	いいえ	8ビット、グループサイズ128gで推論品質を向上させ、Act Orderでさらに精度を向上させます。

ブランチからのダウンロード方法

text-generation-webuiでは、ダウンロード名の末尾に:ブランチを追加できます。例: TheBloke/WizardCoder-Python-13B-V1.0-GPTQ:main
Gitを使用する場合は、以下のコマンドでブランチをクローンできます。

git clone --single-branch --branch main https://huggingface.co/TheBloke/WizardCoder-Python-13B-V1.0-GPTQ

Python Transformersコードでは、ブランチはrevisionパラメータで指定します。詳細は以下を参照してください。

text-generation-webuiでのダウンロードと使用方法

text-generation-webuiでこのモデルを簡単にダウンロードして使用する方法を説明します。

text-generation-webuiの最新バージョンを使用していることを確認してください。

手動でインストールする方法を知っている場合を除き、text-generation-webuiのワンクリックインストーラーを使用することを強くお勧めします。

モデルタブをクリックします。
カスタムモデルまたはLoRAをダウンロードの下に、TheBloke/WizardCoder-Python-13B-V1.0-GPTQを入力します。

特定のブランチからダウンロードする場合は、例えばTheBloke/WizardCoder-Python-13B-V1.0-GPTQ:mainのように入力します。
各オプションのブランチのリストについては、上記の提供されているファイルを参照してください。

ダウンロードをクリックします。
モデルのダウンロードが開始されます。完了すると「完了」と表示されます。
左上のモデルの横にある更新アイコンをクリックします。
モデルのドロップダウンで、先ほどダウンロードしたモデルWizardCoder-Python-13B-V1.0-GPTQを選択します。
モデルが自動的にロードされ、使用可能になります！
カスタム設定が必要な場合は、設定してから右上のこのモデルの設定を保存をクリックし、続いてモデルを再読み込みをクリックします。

手動でGPTQパラメータを設定する必要はなく、しないでください。これらはquantize_config.jsonファイルから自動的に設定されます。

準備ができたら、テキスト生成タブをクリックし、プロンプトを入力して始めましょう！

🔧 技術詳細

互換性

提供されているファイルは、Transformersを介してAutoGPTQと直接AutoGPTQを使用してテストされています。Occ4mのGPTQ-for-LLaMaフォークでも動作するはずです。

ExLlamaは4ビットのLlamaモデルと互換性があります。各ファイルの互換性については、上記の提供されているファイルの表を参照してください。

Huggingface Text Generation Inference (TGI)は、すべてのGPTQモデルと互換性があります。

📄 ライセンス

このモデルは、Llama2ライセンスの下で提供されています。

Discord

これらのモデルやAI全般に関するさらなるサポートや議論に参加するには、以下に参加してください。

TheBloke AIのDiscordサーバー

謝辞と貢献方法

chirper.aiチームに感謝します！

gpus.llm-utils.orgのClayに感謝します！

多くの方から貢献の可否を尋ねられています。私はモデルを提供し、人々を助けることが好きで、それにもっと時間を費やし、微調整/トレーニングなどの新しいプロジェクトにも取り組めるようになりたいと思っています。

貢献できる方は、大変感謝していただけます。これにより、より多くのモデルを提供し、新しいAIプロジェクトの作業を開始するのに役立ちます。

寄付者は、すべてのAI/LLM/モデルに関する質問やリクエストに対して優先的なサポートを受け、プライベートなDiscordルームへのアクセス権などの特典を受けることができます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝: Aemon Algiz。

Patreonで特別に紹介する方: Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbius、Erik Bj√§reholt、Luis Javier Navarrete Lozano、Nicholas、theTransient、John Detwiler、alfie_i、knownsqashed、Mano Prime、Willem Michiel、Enrico Ros、LangChain4j、OG、Michael Dempsey、Pierre Kircher、Pedro Madruga、James Bentley、Thomas Belote、Luke @flexchar、Leonard Tan、Johann-Peter Hartmann、Illia Dulskyi、Fen Risland、Chadd、S_X、Jeff Scroggin、Ken Nordquist、Sean Connelly、Artur Olbinski、Swaroop Kallakuri、Jack West、Ai Maven、David Ziegler、Russ Johnson、transmissions 11、John Villwock、Alps Aficionado、Clay Pascal、Viktor Bowallius、Subspace Studios、Rainer Wilmers、Trenton Dambrowitz、vamX、Michael Levine、Ï§ÄÍµê ÍπÄ、Brandon Frisco、Kalila、Trailburnt、Randy H、Talal Aujan、Nathan Dryer、Vadim、ÈòøÊòé、ReadyPlayerEmma、Tiffany J. Kim、George Stoitzev、Spencer Kim、Jerry Meng、Gabriel Tamborski、Cory Kujawski、Jeffrey Morgan、Spiking Neurons AB、Edmond Seymore、Alexandros Triantafyllidis、Lone Striker、Cap'n Zoog、Nikolai Manek、danny、ya boyyy、Derek Yates、usrbinkat、Mandus、TL、Nathan LeClaire、subjectnull、Imad Khwaja、webtim、Raven Klaugh、Asp the Wyvern、Gabriel Puliatti、Caitlyn Gatomon、Joseph William Delisle、Jonathan Leane、Luke Pendergrass、SuperWojo、Sebastain Graf、Will Dee、Fred von Graf、Andrey、Dan Guido、Daniel P. Andersen、Nitin Borwankar、Elle、Vitor Caleffi、biorpg、jjj、NimbleBox.ai、Pieter、Matthew Berman、terasurfer、Michael Davis、Alex、Stanislav Ovsiannikov

すべての寛大なパトロンと寄付者の皆様に感謝します！

そして、a16zにも再度感謝します。

元のモデルカード: WizardLMのWizardCoder Python 13B V1.0

ü§ó HFリポジトリ ‚Ä¢üê± Githubリポジトリ ‚Ä¢ üê¶ Twitter ‚Ä¢ üìÉ [WizardLM] ‚Ä¢ üìÉ [WizardCoder] ‚Ä¢ üìÉ [WizardMath]

üëã Discordに参加する

ニュース

üî•üî•üî•[2023/08/26] WizardCoder-Python-34B-V1.0をリリースしました。このモデルは、HumanEvalベンチマークで73.2 pass@1を達成し、GPT4 (2023/03/15)、ChatGPT-3.5、Claude2を上回りました。
[2023/06/16] WizardCoder-15B-V1.0をリリースしました。このモデルは、HumanEvalベンチマークで57.3 pass@1を達成し、Claude-Plus (+6.8)、Bard (+15.3)、**InstructCodeT5+ (+22.3)**を上回りました。

‚ùó注: GPT4とChatGPT-3.5には2つのHumanEval結果があります。67.0と48.1は、OpenAIの公式GPT4レポート(2023/03/15)で報告されています。82.0と72.5は、最新のAPI(2023/08/26)で独自にテストした結果です。

モデル	チェックポイント	論文	HumanEval	MBPP	デモ	ライセンス
WizardCoder-Python-34B-V1.0	ü§ó HFリンク	üìÉ [WizardCoder]	73.2	61.2	デモ	Llama2
WizardCoder-15B-V1.0	ü§ó HFリンク	üìÉ [WizardCoder]	57.3	50.6	--	OpenRAIL-M
WizardCoder-Python-13B-V1.0	ü§ó HFリンク	üìÉ [WizardCoder]	64.0	55.6	--	Llama2
WizardCoder-Python-7B-V1.0	ü§ó HFリンク	üìÉ [WizardCoder]	55.5	51.6	デモ	Llama2
WizardCoder-3B-V1.0	ü§ó HFリンク	üìÉ [WizardCoder]	34.8	37.4	--	OpenRAIL-M
WizardCoder-1B-V1.0	ü§ó HFリンク	üìÉ [WizardCoder]	23.8	28.6	--	OpenRAIL-M

私たちのWizardMath-70B-V1.0モデルは、GSM8KでいくつかのクローズドソースのLLMを僅かに上回っています。これには、ChatGPT 3.5、Claude Instant 1、PaLM 2 540Bが含まれます。
私たちのWizardMath-70B-V1.0モデルは、GSM8kベンチマークで81.6 pass@1を達成し、SOTAのオープンソースLLMよりも24.8ポイント高く、MATHベンチマークで22.7 pass@1を達成し、SOTAのオープンソースLLMよりも9.2ポイント高い結果を得ています。