codet5p - 770m - pyオープンソースコードモデル - 無料でデプロイしてPythonコードの理解と生成をサポート

ホーム

Codet5p 770m Py

Salesforceによって開発

CodeT5+はオープンソースのコード大規模言語モデルファミリーで、エンコーダ-デコーダアーキテクチャを採用し、幅広いコード理解と生成タスクをサポートします。このモデルはPythonコードに基づいて追加のチューニングを行っています。

大規模言語モデル

Transformers

オープンソースライセンス:Bsd-3-clause #Pythonコード生成 #マルチタスクコードモデル #ゼロショット学習

ダウンロード数 4,564

リリース時間 : 5/15/2023

モデル概要

CodeT5+は新しいコード大規模言語モデルで、柔軟な動作モード切り替えをサポートし、コード理解、生成、補完などのタスクに使用できます。このチェックポイントはPythonコード生成に特化して最適化されています。

モデル特徴

柔軟なアーキテクチャ

エンコーダ-デコーダ、エンコーダのみ、またはデコーダのみのモードをサポートし、さまざまなタスクの要件に対応します

マルチタスク事前学習

断片ノイズ除去、因果的言語モデリング、対比学習、テキスト-コードマッチングなどのさまざまな事前学習タスクを採用しています

Python最適化

Pythonコード生成に特化して追加の学習サイクルで最適化されています

効率的な拡張

「浅いエンコーダ-深いデコーダ」アーキテクチャと凍結LLMコンポーネントの初期化を採用し、より大規模なモデルに効率的に拡張できます

モデル能力

コード生成

コード補完

コード理解

テキストからコードへの変換

数学的なプログラミング問題の解決

使用事例

ソフトウェア開発

関数自動補完

関数シグネチャに基づいて関数の実装を自動生成します

HumanEvalベンチマークテストで15.5% pass@1を達成

コードドキュメント生成

コードに基づいて説明的なドキュメントを生成します

教育

プログラミング教育支援

学生がコードのロジックを理解し、サンプルコードを生成するのを支援します

🚀 CodeT5+ 770M (Pythonでさらに微調整済み)

CodeT5+は、エンコーダ・デコーダアーキテクチャを持つ新しいオープンコードの大規模言語モデルです。このモデルは、さまざまなモード（エンコーダのみ、デコーダのみ、エンコーダ・デコーダ）で柔軟に動作し、幅広いコード理解と生成タスクをサポートします。

🚀 クイックスタート

このモデルは、T5ForConditionalGeneration機能を使用して簡単にロードでき、元のCodeT5と同じトークナイザーを採用しています。

💻 使用例

基本的な使用法

from transformers import T5ForConditionalGeneration, AutoTokenizer

checkpoint = "Salesforce/codet5p-770m-py"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = T5ForConditionalGeneration.from_pretrained(checkpoint).to(device)

inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to(device)
outputs = model.generate(inputs, max_length=10)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
# ==>     print('Hello World!')

📚 ドキュメント

モデルの説明

CodeT5+は、エンコーダ・デコーダアーキテクチャを持つ新しいオープンコードの大規模言語モデルのファミリーです。このモデルは、さまざまなモード（エンコーダのみ、デコーダのみ、エンコーダ・デコーダ）で柔軟に動作し、幅広いコード理解と生成タスクをサポートします。このモデルについては、以下の論文で紹介されています。 CodeT5+: Open Code Large Language Models for Code Understanding and Generation 著者: Yue Wang*, Hung Le*, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi (*は同等の貢献を示す)

元のCodeT5ファミリー（ベース: 220M、ラージ: 770M）と比較して、CodeT5+は、span denoising、causal language modeling、contrastive learning、text-code matching などの多様な事前学習タスクで事前学習されており、単モーダルのコードデータとバイモーダルのコード・テキストデータの両方から豊富な表現を学習します。さらに、このモデルは、CodeGenなどの既存の凍結された大規模言語モデルを使用してモデルコンポーネントを初期化する、シンプルで効果的な compute-efficient pretraining 方法を採用しており、効率的にモデルを拡張（2B、6B、16B）することができます。また、「浅いエンコーダと深いデコーダ」のアーキテクチャを採用しています。さらに、このモデルは、Code Alpacaに従って、自然言語命令に合わせて命令微調整されています（InstructCodeT5+ 16Bを参照）。

事前学習データ

このチェックポイントは、github-code datasetの重複排除バージョンのより厳格な許容サブセットで学習されています。データは、許容ライセンスのコード（"mit"、"apache-2"、"bsd-3-clause"、"bsd-2-clause"、"cc0-1.0"、"unlicense"、"isc"）のみを残すように前処理されています。サポートされる言語（合計9種類）は以下の通りです。 c、c++、c-sharp、go、java、javascript、php、python、ruby

学習手順

このチェックポイントは、最初の段階の事前学習では多言語の単モーダルコードデータで学習され、span denoising と causal language modeling の2つのバリエーションを含む多様な事前学習タスクが行われます。その後、Pythonサブセットで causal language modeling の目的でさらに1エポック学習され、Pythonコード生成により適応するようになっています。詳細は論文を参照してください。

評価結果

CodeT5+モデルは、さまざまな設定（ゼロショット、微調整、命令微調整）で、幅広いコード理解と生成タスクに対して包括的に評価されています。具体的には、CodeT5+は、多くの下流タスクでSoTAベースラインと比較して大幅な性能向上をもたらします。例えば、 8つのテキストからコードへの検索タスク（平均MRR +3.2）、2つの行レベルのコード補完タスク（平均正確一致 +2.1）、2つの検索拡張コード生成タスク（平均BLEU-4 +5.8）です。 MathQA-PythonとGSM8K-Pythonの2つの数学プログラミングタスクでは、10億パラメータ未満のCodeT5+モデルが、最大137Bパラメータの多くの大規模言語モデルを大幅に上回っています。特に、HumanEvalベンチマークのゼロショットテキストからコードへの生成タスクでは、InstructCodeT5+ 16Bが、他のオープンコードの大規模言語モデルに対して35.0%のpass@1と54.5%のpass@10という新しいSoTA結果を達成し、クローズドソースのOpenAI code-cushman-001モードを上回っています。詳細は論文を参照してください。

具体的にこのチェックポイントは、ゼロショット設定でHumanEvalで15.5%のpass@1を達成しており、Incoder 6Bの15.2%、GPT-NeoX 20Bの15.4%、PaLM 62Bの15.9%など、はるかに大きな大規模言語モデルと匹敵しています。

BibTeXエントリと引用情報

@article{wang2023codet5plus,
  title={CodeT5+: Open Code Large Language Models for Code Understanding and Generation},
  author={Wang, Yue and Le, Hung and Gotmare, Akhilesh Deepak and Bui, Nghi D.Q. and Li, Junnan and Hoi, Steven C. H.},
  journal={arXiv preprint},
  year={2023}
}

倫理的な考慮事項

このリリースは、学術論文のサポートのための研究目的のみです。当社のモデル、データセット、コードは、すべての下流目的に対して特別に設計または評価されていません。ユーザーは、このモデルを展開する前に、精度、安全性、公正性に関する潜在的な懸念事項を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限事項を考慮し、適用される法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオのユースケースを選択する際には、ベストプラクティスを活用することをお勧めします。ユースケースに関するさらなるガイダンスについては、当社のAUPとAI AUPを参照してください。