codegen-6B-monoオープンソースコード生成モデル - Pythonプログラムの開発合成を無料で支援

ホーム

Codegen 6B Mono

Salesforceによって開発

CodeGenはプログラム合成のための自己回帰型言語モデルシリーズで、CodeGen-Mono 6BはPythonプログラミング言語データセットでさらに事前学習された60億パラメータモデルです。

大規模言語モデル

Transformers

オープンソースライセンス:Bsd-3-clause #Pythonコード生成 #自己回帰型プログラミング #大規模パラメータモデル

ダウンロード数 600

リリース時間 : 4/13/2022

モデル概要

CodeGen-Mono 6Bはプログラム合成に特化した言語モデルで、自然言語プロンプトから実行可能なコードを生成でき、特にPythonプログラミングタスクに適しています。

モデル特徴

Python専用事前学習

BigPythonデータセット（717億Pythonトークン）で特別に事前学習され、Pythonコード生成能力が最適化されています

自己回帰型生成

自己回帰方式でコードを生成し、部分的なコードや自然言語プロンプトから完全なプログラムを補完できます

大規模トレーニング

Google TPU-v4-512クラスタを使用して大規模並列トレーニングを実施

モデル能力

Pythonコード生成

コード補完

プログラム合成

使用事例

ソフトウェア開発

コメントからの関数生成

自然言語コメントの説明から自動的に完全なPython関数実装を生成

HumanEvalやMTPBなどのベンチマークで良好なパフォーマンス

コード補完

部分的なコードスニペットから完全な実装を自動補完

🚀 CodeGen (CodeGen-Mono 6B)

CodeGenは、論文「A Conversational Paradigm for Program Synthesis」に基づく、プログラム合成のための自己回帰型言語モデルのファミリーです。このモデルは、3種類の事前学習データバリアント（NL、Multi、Mono）と4種類のモデルサイズバリアント（350M、2B、6B、16B）で提供されています。

📚 ドキュメント

モデルの説明

CodeGenは、Erik Nijkamp、Bo Pang、Hiroaki Hayashi、Lifu Tu、Huan Wang、Yingbo Zhou、Silvio Savarese、Caiming Xiongによる論文「A Conversational Paradigm for Program Synthesis」に基づく、プログラム合成のための自己回帰型言語モデルのファミリーです。これらのモデルは、このリポジトリで公開されており、3種類の事前学習データバリアント（NL、Multi、Mono）と4種類のモデルサイズバリアント（350M、2B、6B、16B）があります。

このリポジトリに含まれるチェックポイントは、論文ではCodeGen-Mono 6Bと表記されています。「Mono」は、モデルがCodeGen-Multi 6Bで初期化され、Pythonプログラミング言語のデータセットでさらに事前学習されたことを意味し、「6B」は学習可能なパラメータの数を指します。

学習データ

このチェックポイント（CodeGen-Mono 6B）は、まずCodeGen-Multi 6Bで初期化され、次にBigPythonデータセットで事前学習されました。このデータは、Pythonプログラミング言語の71.7Bトークンで構成されています。詳細については、論文のセクション2.1を参照してください。

学習手順

CodeGenは、逐次入力の尤度を最大化するために、交差エントロピー損失を使用して学習されました。これらのモデルは、Googleの複数のTPU-v4-512を使用して、データ並列とモデル並列を活用して学習されました。詳細については、論文のセクション2.3を参照してください。

評価結果

私たちは、2つのコード生成ベンチマークであるHumanEvalとMTPBでモデルを評価しました。詳細については、論文を参照してください。

想定される用途と制限

自己回帰型言語モデルとして、CodeGenは与えられた自然言語とプログラミング言語のテキストから特徴を抽出し、それらの尤度を計算することができます。ただし、このモデルは主にプログラム合成に特化しており、英語のプロンプトを与えて実行可能なコードを生成することができます。プロンプトはコメント文字列の形式である必要があります。また、部分的に生成されたコードを完成させることもできます。

💻 使用例

基本的な使用法

このモデルは、AutoModelForCausalLM機能を使用して簡単に読み込むことができます。

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/codegen-6B-mono")
model = AutoModelForCausalLM.from_pretrained("Salesforce/codegen-6B-mono")

text = "def hello_world():"
input_ids = tokenizer(text, return_tensors="pt").input_ids

generated_ids = model.generate(input_ids, max_length=128)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

🔧 技術詳細

CodeGenは、交差エントロピー損失を使用して学習され、Googleの複数のTPU-v4-512を用いてデータ並列とモデル並列を活用しました。事前学習データにはPython言語のデータセットが使用され、学習可能なパラメータ数は60億です。

📄 ライセンス

このモデルはBSD 3条項ライセンスの下で提供されています。

⚠️ 重要提示

このリリースは学術論文のサポートのための研究目的のみです。私たちのモデル、データセット、コードは、すべての下流の目的に特に設計または評価されていません。ユーザーは、このモデルをデプロイする前に、精度、安全性、公正性に関する潜在的な懸念事項を評価し、対処することを強く推奨します。また、AIの一般的な制限を考慮し、適用可能な法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオのユースケースを選択する際には、ベストプラクティスを活用することをお勧めします。ユースケースに関するさらなるガイダンスについては、当社のAUPおよびAI AUPを参照してください。

📚 BibTeX引用

@article{Nijkamp2022ACP,
  title={A Conversational Paradigm for Program Synthesis},
  author={Nijkamp, Erik and Pang, Bo and Hayashi, Hiroaki and Tu, Lifu and Wang, Huan and Zhou, Yingbo and Savarese, Silvio and Xiong, Caiming},
  journal={arXiv preprint},
  year={2022}
}