codet5p - 2bオープンソースコード大規模言語モデル - コード理解と生成タスクを無料でサポート

ホーム

Codet5p 2b

Salesforceによって開発

CodeT5+はオープンソースのコード大規模言語モデルファミリーで、コード理解と生成タスクをサポートし、エンコーダ-デコーダアーキテクチャを採用し、異なる動作モードに柔軟に切り替えることができます。

大規模言語モデル

Transformers

オープンソースライセンス:Bsd-3-clause #コード大規模言語モデル #多プログラミング言語サポート #コード理解と生成

ダウンロード数 745

リリース時間 : 5/17/2023

モデル概要

CodeT5+は新しいオープンソースのコード大規模言語モデルファミリーで、エンコーダ-デコーダアーキテクチャを採用し、純粋なエンコーダ、純粋なデコーダ、エンコーダ-デコーダなど異なる動作モードに柔軟に切り替えることができ、幅広いコード理解と生成タスクをサポートします。

モデル特徴

柔軟な動作モード

純粋なエンコーダ、純粋なデコーダ、エンコーダ-デコーダの3つの動作モードをサポートし、異なるコード理解と生成タスクに対応します。

多様な事前学習タスク

スパンデノイジング、因果的言語モデリング、対照学習、テキスト-コードマッチングなど様々な事前学習タスクを通じて、単一モーダルのコードデータと双モーダルのコード-テキストデータから豊富な表現を学習します。

計算効率の良い事前学習

革新的な計算効率の良い事前学習方法を採用し、既存の大規模言語モデルコンポーネントを凍結して効率的に拡張し、20億、60億、160億パラメータ規模をサポートします。

浅いエンコーダ-深いデコーダアーキテクチャ

浅いエンコーダ-深いデコーダアーキテクチャを採用し、モデル性能を最適化します。

モデル能力

コード理解

コード生成

テキスト-コード検索

行単位のコード補完

検索強化コード生成

数学的プログラミング

使用事例

コード生成

関数補完

関数シグネチャに基づいて関数本体を自動補完

HumanEvalベンチマークのゼロショットテキスト-コード生成タスクで優れた性能を発揮

コード理解

コード検索

自然言語記述に基づいて関連するコードスニペットを検索

8つのテキスト-コード検索タスクで平均MRRが3.2ポイント向上

数学的プログラミング

数学問題解決

数学問題を実行可能なコードに変換

MathQA-PythonとGSM8K-Python数学プログラミングタスクで優れた性能を発揮

🚀 CodeT5+ 2B

CodeT5+は、エンコーダ・デコーダアーキテクチャを持つ新しいオープンコード大規模言語モデルのファミリーです。様々なモード（エンコーダのみ、デコーダのみ、エンコーダ・デコーダ）で柔軟に動作し、幅広いコード理解と生成タスクをサポートします。

🚀 クイックスタート

このモデルは、AutoModelForSeq2SeqLM機能を使用して簡単に読み込むことができ、CodeGenと同じトークナイザーを採用しています。

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

checkpoint = "Salesforce/codet5p-2b"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint,
                                              torch_dtype=torch.float16,
                                              trust_remote_code=True).to(device)

encoding = tokenizer("def print_hello_world():", return_tensors="pt").to(device)
encoding['decoder_input_ids'] = encoding['input_ids'].clone()
outputs = model.generate(**encoding, max_length=15)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主な機能

多様な事前学習タスク：CodeT5+は、元のCodeT5ファミリーと比較して、span denoising、causal language modeling、contrastive learning、_text-code matching_などの多様な事前学習タスクで事前学習されており、単一モーダルのコードデータと二モーダルのコード・テキストデータから豊富な表現を学習します。
効率的な事前学習方法：シンプルで効果的な_計算効率の高い事前学習_方法を採用し、CodeGenなどの既存の大規模言語モデルでモデルコンポーネントを初期化することで、効率的にモデルを拡張します（2B、6B、16B）。
浅いエンコーダと深いデコーダのアーキテクチャ："浅いエンコーダと深いデコーダ"のアーキテクチャを採用しています。
自然言語命令への調整：Code Alpacaに従って、自然言語命令に合わせてインストラクションチューニングされています。

📦 インストール

このモデルを使用するには、transformersライブラリをインストールする必要があります。以下のコマンドでインストールできます。

pip install transformers

📚 ドキュメント

モデルの説明

CodeT5+は、エンコーダ・デコーダアーキテクチャを持つ新しいオープンコード大規模言語モデルのファミリーです。様々なモード（エンコーダのみ、デコーダのみ、エンコーダ・デコーダ）で柔軟に動作し、幅広いコード理解と生成タスクをサポートします。詳細は以下の論文を参照してください。

CodeT5+: Open Code Large Language Models for Code Understanding and Generation 著者: Yue Wang*, Hung Le*, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi (*は同等の貢献を示す)

事前学習データ

このチェックポイントは、github-codeデータセットの重複排除バージョンの厳格な許容サブセットで学習されています。データは、許容ライセンスのコードのみを残すように前処理されています（"mit"、"apache-2"、"bsd-3-clause"、"bsd-2-clause"、"cc0-1.0"、"unlicense"、"isc"）。サポートされる言語は合計9種類です。 c, c++, c-sharp, go, java, javascript, php, python, ruby

学習手順

このチェックポイントは、既存の大規模言語モデルから初期化されています。つまり、エンコーダはCodeGen-350M-monoから、デコーダはCodeGen-2B-monoから初期化されています。第一段階の事前学習では、単一モーダルのコードデータで学習され、_span denoising_や2種類の_causal language modeling_などの多様な事前学習タスクが含まれています。その後、Pythonサブセットで_causal language modeling_の目的でさらに学習され、Pythonコード生成により適応されます。詳細は論文を参照してください。

評価結果

CodeT5+モデルは、様々な設定（ゼロショット、ファインチューニング、インストラクションチューニング）で、幅広いコード理解と生成タスクに対して包括的に評価されています。具体的には、多くの下流タスクで、SoTAベースラインと比較して大幅な性能向上を示しています。例えば、8つのテキストからコードへの検索タスク（平均MRR +3.2）、2つの行レベルのコード補完タスク（平均Exact Match +2.1）、2つの検索拡張コード生成タスク（平均BLEU-4 +5.8）です。MathQA-PythonとGSM8K-Pythonの2つの数学プログラミングタスクでは、10億パラメータ未満のCodeT5+モデルが、最大137Bパラメータの多くの大規模言語モデルを大きく上回っています。特に、HumanEvalベンチマークのゼロショットテキストからコードへの生成タスクでは、InstructCodeT5+ 16Bが、他のオープンコード大規模言語モデルに対して35.0% pass@1と54.5% pass@10の新しいSoTA結果を達成し、閉ソースのOpenAI code-cushman-001モードを上回っています。詳細は論文を参照してください。

BibTeXエントリと引用情報

@article{wang2023codet5plus,
  title={CodeT5+: Open Code Large Language Models for Code Understanding and Generation},
  author={Wang, Yue and Le, Hung and Gotmare, Akhilesh Deepak and Bui, Nghi D.Q. and Li, Junnan and Hoi, Steven C. H.},
  journal={arXiv preprint},
  year={2023}
}

倫理的な考慮事項

このリリースは、学術論文のサポートのための研究目的のみです。当社のモデル、データセット、コードは、すべての下流目的に特に設計または評価されていません。ユーザーは、このモデルをデプロイする前に、精度、安全性、公平性に関する潜在的な懸念事項を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限を考慮し、適用される法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオのユースケースを選択する際には、ベストプラクティスを活用することをお勧めします。ユースケースに関する詳細なガイダンスについては、当社のAUPとAI AUPを参照してください。