StarcoderPlusオープンソースコード生成モデル - 多言語プログラミングと自然言語処理タスクをサポート

ホーム

Starcoderplus

bigcodeによって開発

StarCoderPlusは、BigCodeプロジェクトで開発された強力なコード生成モデルで、複数のプログラミング言語と自然言語処理タスクをサポートしています。

大規模言語モデル

Transformers

その他#コード生成 #マルチリンガルプログラミング #機械学習推論

ダウンロード数 52

リリース時間 : 5/8/2023

モデル概要

StarCoderPlusは、コード生成とテキスト理解タスクに特化した多機能な大規模言語モデルで、プログラミング支援や多言語テキスト処理に適しています。

モデル特徴

強力なコード生成能力

プロンプトに基づいて高品質なコードスニペットを生成でき、複数のプログラミング言語をサポートします。

マルチリンガルサポート

プログラミング言語だけでなく、中国語や英語などの自然言語タスクも処理できます。

高性能推論

HumanEvalやMMLUなどの複数のベンチマークテストで優れた性能を発揮します。

モデル能力

コード生成

テキスト理解

マルチリンガル処理

常識推論

抽象推論

使用事例

プログラミング支援

コード補完

関数シグネチャやコメントに基づいて完全なコード実装を自動生成します。

HumanEvalテストで26.7%の通過率@1を達成。

教育

機械学習概念の説明

勾配降下法などの複雑な機械学習概念を簡潔な言葉で説明します。

🚀 StarCoderPlus

このモデルは、英語と80以上のプログラミング言語で学習された155億パラメータの言語モデルです。StarChat-Beta で、命令調整済みの StarCoderPlus を試すことができます。

🚀 クイックスタート

📚 モデル概要

StarCoderPlusは、StarCoderBase を以下のデータセットでファインチューニングしたバージョンです。

英語のウェブデータセット RefinedWeb (1倍)
The Stack (v1.2) の StarCoderData データセット (1倍)
5倍にアップサンプリングされたウィキペディアデータセット (5倍)

これは、英語と80以上のプログラミング言語で学習された15.5Bパラメータの言語モデルです。モデルは Multi Query Attention、8192トークンのコンテキストウィンドウを使用し、Fill-in-the-Middle objective を用いて1.6兆トークンで学習されました。

リポジトリ: bigcode/Megatron-LM
プロジェクトウェブサイト: bigcode-project.org
問い合わせ先: contact@bigcode-project.org
言語: 英語と80以上のプログラミング言語

💻 使用方法

想定される使用法

このモデルは英語とGitHubのコードで学習されています。したがって、命令モデルではなく、「平方根を計算する関数を書いてください。」のようなコマンドはうまく機能しません。ただし、StarChat の命令調整済みバージョンは、有能なアシスタントとして機能します。

コミュニティタブで生成結果を自由に共有してください！

生成

# pip install -q transformers
from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "bigcode/starcoderplus"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)

inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

中抜き生成 (Fill-in-the-Middle)

中抜き生成では、入力と出力のプレフィックス/ミドル/サフィックス部分を識別するために特殊トークンを使用します。

input_text = "<fim_prefix>def print_hello_world():\n    <fim_suffix>\n    print('Hello world!')<fim_middle>"
inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

帰属とその他の要件

このモデルの学習コードデータセットは、許容的なライセンスのみでフィルタリングされています。それにもかかわらず、モデルはデータセットからソースコードを逐語的に生成することがあります。コードのライセンスには、帰属やその他の特定の要件が必要な場合があり、それらを尊重する必要があります。私たちは、生成されたコードがどこから来たかを特定し、適切な帰属をコードに適用するために、事前学習データを検索できる検索インデックスを提供しています。

🔧 制限事項

このモデルは、ウェブ上の英語テキストとGitHubのコードの混合物で学習されています。したがって、非英語のテキストで動作する際に制限が生じる可能性があり、オンラインで一般的に見られるステレオタイプやバイアスを持つことがあります。さらに、生成されたコードにはエラー、非効率性、または潜在的な脆弱性が含まれる可能性があるため、注意して使用する必要があります。ベースモデルのコードの制限事項についてより包括的な理解を得るには、StarCoder論文を参照してください。