CodeGen - 16B - monoオープンソースコード生成モデル - 英語の指示に基づき無料で実行可能なコードを生成

ホーム

Codegen 16B Mono

Salesforceによって開発

CodeGen-Mono 16Bは、プログラム合成のための自己回帰型言語モデルで、英語のプロンプトから実行可能なコードを生成することに特化しています。

大規模言語モデル

Transformers

オープンソースライセンス:Bsd-3-clause #Pythonコード生成 #自己回帰型言語モデル #プログラム合成

ダウンロード数 227

リリース時間 : 4/13/2022

モデル概要

CodeGenは、プログラム合成のための一連の自己回帰型言語モデルで、与えられた自然言語およびプログラミング言語のテキストから特徴を抽出し、主に英語のプロンプトから実行可能なコードを生成するために使用されます。

モデル特徴

プログラム合成

英語のプロンプトから実行可能なコードを生成でき、特にコメント文字列からのコード生成に優れています。

自己回帰モデル

クロスエントロピー損失を使用して訓練され、シーケンス入力の可能性を最大化します。

大規模事前訓練

BigPythonデータセットで事前訓練されており、71.7BのPythonプログラミング言語のトークンを含みます。

モデル能力

コード生成

コード補完

プログラム合成

使用事例

ソフトウェア開発

コメントからのコード生成

英語のプロンプト（例：コメント文字列）から実行可能なPythonコードを生成します。

プロンプトの要件に合致した実行可能なコードを生成

コード補完

部分的に生成されたコードから残りを補完します。

一貫性があり機能的な完全なコードを生成

🚀 CodeGen (CodeGen-Mono 16B)

CodeGenは、論文「A Conversational Paradigm for Program Synthesis」に基づく、プログラム合成用の自己回帰型言語モデルのファミリーです。論文の著者は、Erik Nijkamp、Bo Pang、Hiroaki Hayashi、Lifu Tu、Huan Wang、Yingbo Zhou、Silvio Savarese、Caiming Xiongです。これらのモデルは、このリポジトリで最初に公開され、3種類の事前学習データバリエーション (NL、Multi、Mono) と4種類のモデルサイズバリエーション (350M、2B、6B、16B) で提供されています。

このリポジトリに含まれるチェックポイントは、論文では CodeGen-Mono 16B と表記されています。「Mono」は、モデルが CodeGen-Multi 16B で初期化され、Pythonプログラミング言語のデータセットでさらに事前学習されたことを意味し、「16B」は学習可能なパラメータの数を指します。

🚀 クイックスタート

このセクションでは、CodeGen-Mono 16Bモデルの基本的な使い方を説明します。

✨ 主な機能

自然言語とプログラミング言語のテキストから特徴を抽出し、それらの尤度を計算することができます。
英語のプロンプトを与えることで、実行可能なコードを生成することができます。
部分的に生成されたコードを完成させることもできます。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/codegen-16B-mono")
model = AutoModelForCausalLM.from_pretrained("Salesforce/codegen-16B-mono")

text = "def hello_world():"
input_ids = tokenizer(text, return_tensors="pt").input_ids

generated_ids = model.generate(input_ids, max_length=128)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

📚 ドキュメント

モデルの説明

CodeGenは、自己回帰型言語モデルのファミリーで、プログラム合成に特化しています。このモデルは、事前学習データとモデルサイズのバリエーションがあり、それぞれ異なる特性を持っています。

学習データ

このチェックポイント (CodeGen-Mono 16B) は、CodeGen-Multi 16B で初期化され、BigPythonデータセットでさらに事前学習されました。このデータセットは、71.7BトークンのPythonプログラミング言語のデータから構成されています。詳細は、論文のセクション2.1を参照してください。

学習手順

CodeGenは、交差エントロピー損失を使用して、逐次入力の尤度を最大化するように学習されました。これらのモデルは、Googleの複数のTPU-v4-512を使用して、データ並列とモデル並列を活用して学習されました。詳細は、論文のセクション2.3を参照してください。

評価結果

このモデルは、HumanEvalとMTPBという2つのコード生成ベンチマークで評価されました。詳細は、論文を参照してください。

想定される使用方法と制限

CodeGenは、自己回帰型言語モデルであり、与えられた自然言語とプログラミング言語のテキストから特徴を抽出し、それらの尤度を計算することができます。ただし、このモデルは、プログラム合成に特化しており、英語のプロンプトを与えることで、実行可能なコードを生成することができます。プロンプトは、コメント文字列の形式である必要があります。また、部分的に生成されたコードを完成させることもできます。

倫理的な考慮事項

このリリースは、学術論文のサポートのための研究目的のみです。私たちのモデル、データセット、およびコードは、すべての下流の目的に特に設計または評価されていません。ユーザーは、このモデルをデプロイする前に、精度、安全性、および公平性に関する潜在的な懸念事項を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限を考慮し、適用可能な法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオでは、ベストプラクティスを活用することをお勧めします。使用事例に関するさらなるガイダンスについては、私たちのAUPおよびAI AUPを参照してください。

BibTeXエントリと引用情報

@article{Nijkamp2022ACP,
  title={A Conversational Paradigm for Program Synthesis},
  author={Nijkamp, Erik and Pang, Bo and Hayashi, Hiroaki and Tu, Lifu and Wang, Huan and Zhou, Yingbo and Savarese, Silvio and Xiong, Caiming},
  journal={arXiv preprint},
  year={2022}
}