Starcoder2-15Bオープンソースコード生成モデル - 600種以上の言語で訓練され、大ウィンドウコーディングをサポート

ホーム

Starcoder2 15b

bigcodeによって開発

StarCoder2-15Bは150億パラメータのコード生成モデルで、600以上のプログラミング言語で訓練され、16Kコンテキストウィンドウとスライディングウィンドウアテンション機構をサポートしています。

大規模言語モデル

Transformers

その他オープンソースライセンス:Openrail #マルチプログラミング言語コード生成 #16K長文コンテキストウィンドウ #4兆トークン訓練

ダウンロード数 8,837

リリース時間 : 2/20/2024

モデル概要

StarCoder2-15BはThe Stack v2データセットで訓練されたコード生成モデルで、複数のプログラミング言語のコード補完と生成タスクをサポートします。

モデル特徴

多言語コードサポート

600以上のプログラミング言語のコード生成と理解をサポート

長文コンテキスト処理

16,384トークンのコンテキストウィンドウと4,096トークンのスライディングウィンドウアテンション機構を備える

効率的な訓練

4兆以上のトークンで穴埋め目標を使用して訓練

高性能ハードウェアサポート

NVIDIA H100 GPUとNeMoフレームワークを使用して訓練

モデル能力

コード自動補完

関数生成

コード理解

多言語コード変換

使用事例

ソフトウェア開発

コード補完

IDEでインテリジェントなコード補完を提供

開発効率の向上

関数生成

関数シグネチャに基づいて実装コードを自動生成

迅速なプロトタイピング

教育

プログラミング学習

新しいプログラミング言語を学ぶためのサンプルコードを生成

教育支援

🚀 StarCoder2

StarCoder2は、600以上のプログラミング言語のコード生成に特化したモデルで、GitHubコードやArxiv、Wikipediaなどのデータを用いて訓練されています。

🚀 クイックスタート

モデル概要

StarCoder2-15Bモデルは、The Stack v2の600以上のプログラミング言語のコードを使って訓練された150億パラメータのモデルです。このモデルは、Grouped Query Attention、16,384トークンのコンテキストウィンドウ、4,096トークンのスライディングウィンドウアテンションを使用し、Fill-in-the-Middleオブジェクティブで4兆以上のトークンを用いて訓練されています。

プロジェクトウェブサイト: bigcode-project.org
論文: Link
問い合わせ先: contact@bigcode-project.org
対応言語: 600以上のプログラミング言語

モデルの使用

想定される使用方法

このモデルはGitHubのコードやArxiv、Wikipediaなどの追加データソースを使って訓練されています。したがって、命令型のモデルではなく、「平方根を計算する関数を書け」などのコマンドはうまく機能しません。

コード生成

以下は、モデルを使ってコード生成を開始するための例です。微調整用のスクリプトは、StarCoder2のGitHubリポジトリで見つけることができます。

まず、transformersをソースからインストールする必要があります。

pip install git+https://github.com/huggingface/transformers.git

CPU/GPU/マルチGPUでのモデル実行

完全精度を使用する場合

# pip install git+https://github.com/huggingface/transformers.git # TODO: merge PR to main
from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "bigcode/starcoder2-15b"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
# for multiple GPUs install accelerate and do `model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto")`
model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)

inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

torch.bfloat16を使用する場合

# pip install accelerate
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

checkpoint = "bigcode/starcoder2-15b"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# for fp16 use `torch_dtype=torch.float16` instead
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", torch_dtype=torch.bfloat16)

inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to("cuda")
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

>>> print(f"Memory footprint: {model.get_memory_footprint() / 1e6:.2f} MB")
Memory footprint: 32251.33 MB

`bitsandbytes`を使用した量子化バージョン

8ビット精度（int8）を使用する場合

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

# to use 4bit use `load_in_4bit=True` instead
quantization_config = BitsAndBytesConfig(load_in_8bit=True)

checkpoint = "bigcode/starcoder2-15b"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, quantization_config=quantization_config)

inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to("cuda")
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

>>> print(f"Memory footprint: {model.get_memory_footprint() / 1e6:.2f} MB")
# load_in_8bit
Memory footprint: 16900.18 MB
# load_in_4bit
>>> print(f"Memory footprint: {model.get_memory_footprint() / 1e6:.2f} MB")
Memory footprint: 9224.60 MB

帰属とその他の要件

このモデルの事前学習データセットは、許容ライセンスのコードとライセンスのないコードのみでフィルタリングされています。それにもかかわらず、モデルはデータセットからそのままソースコードを生成することができます。コードのライセンスには、帰属やその他の特定の要件が必要な場合があり、それらを尊重する必要があります。私たちは、生成されたコードがどこから来たかを特定し、コードに適切な帰属を適用するために、事前学習データを検索できる検索インデックスを提供しています。

✨ 主な機能

モデルの制限

このモデルは600以上のプログラミング言語のソースコードで訓練されています。ソースコードの主な言語は英語ですが、他の言語も含まれています。したがって、モデルはある程度のコンテキストが与えられればコードスニペットを生成することができますが、生成されたコードが意図した通りに動作することは保証されていません。非効率であったり、バグや脆弱性を含んでいることがあります。モデルの制限についての詳細な議論は、論文を参照してください。

訓練

モデル

アーキテクチャ: グループ化クエリとスライディングウィンドウアテンション、Fill-in-the-Middleオブジェクティブを持つTransformerデコーダ
事前学習ステップ: 100万
事前学習トークン: 4兆以上
精度: bfloat16

ハードウェア

GPU: 1024 x H100

ソフトウェア

フレームワーク: NeMo Framework
ニューラルネットワーク: PyTorch

📄 ライセンス

このモデルは、BigCode OpenRAIL-M v1ライセンス契約の下でライセンスされています。完全な契約はこちらで確認できます。

📚 ドキュメント

引用

@misc{lozhkov2024starcoder,
      title={StarCoder 2 and The Stack v2: The Next Generation}, 
      author={Anton Lozhkov and Raymond Li and Loubna Ben Allal and Federico Cassano and Joel Lamy-Poirier and Nouamane Tazi and Ao Tang and Dmytro Pykhtar and Jiawei Liu and Yuxiang Wei and Tianyang Liu and Max Tian and Denis Kocetkov and Arthur Zucker and Younes Belkada and Zijian Wang and Qian Liu and Dmitry Abulkhanov and Indraneil Paul and Zhuang Li and Wen-Ding Li and Megan Risdal and Jia Li and Jian Zhu and Terry Yue Zhuo and Evgenii Zheltonozhskii and Nii Osae Osae Dade and Wenhao Yu and Lucas Krauß and Naman Jain and Yixuan Su and Xuanli He and Manan Dey and Edoardo Abati and Yekun Chai and Niklas Muennighoff and Xiangru Tang and Muhtasham Oblokulov and Christopher Akiki and Marc Marone and Chenghao Mou and Mayank Mishra and Alex Gu and Binyuan Hui and Tri Dao and Armel Zebaze and Olivier Dehaene and Nicolas Patry and Canwen Xu and Julian McAuley and Han Hu and Torsten Scholak and Sebastien Paquet and Jennifer Robinson and Carolyn Jane Anderson and Nicolas Chapados and Mostofa Patwary and Nima Tajbakhsh and Yacine Jernite and Carlos Muñoz Ferrandis and Lingming Zhang and Sean Hughes and Thomas Wolf and Arjun Guha and Leandro von Werra and Harm de Vries},
      year={2024},
      eprint={2402.19173},
      archivePrefix={arXiv},
      primaryClass={cs.SE}
}