CodeT5+（codet5p - 220m）オープンソースのコード大規模モデル - 無料でデプロイし、コード理解と生成をサポート

ホーム

Codet5p 220m

Salesforceによって開発

CodeT5+ はオープンソースのコード大規模言語モデルファミリーで、エンコーダ-デコーダアーキテクチャを採用し、多様なモードをサポートし、幅広いコード理解と生成タスクに適しています。

大規模言語モデル

Transformers

オープンソースライセンス:Bsd-3-clause #コード生成 #多言語プログラミング #スニペットデノイジング

ダウンロード数 12.98k

リリース時間 : 5/13/2023

モデル概要

CodeT5+ はコード理解と生成のためのオープンソースの大規模言語モデルで、複数のプログラミング言語とタスクをサポートしています。

モデル特徴

多様な事前学習タスク

スニペットデノイジング、因果的言語モデリング、対照学習、テキスト-コードマッチングなど、多様な事前学習タスクを通じて豊富な表現を学習します。

計算効率の良い事前学習

既存の大規模言語モデルを凍結してモデルコンポーネントを初期化し、モデルサイズを効率的に拡張します。

柔軟な多モードサポート

エンコーダのみ、デコーダのみ、エンコーダ-デコーダの3つのモードをサポートし、幅広いコードタスクに適用可能です。

モデル能力

コード生成

コード理解

テキストからコードへの検索

行レベルのコード補完

検索強化型コード生成

数学的プログラミング

使用事例

コード生成

関数補完

関数シグネチャに基づいて関数本体を自動補完

HumanEvalベンチマークで35.0%のpass@1を達成

コード理解

テキストからコードへの検索

自然言語の記述に基づいて関連するコードスニペットを検索

8つのテキストからコードへの検索タスクで平均MRRが+3.2向上

🚀 CodeT5+ 220M

CodeT5+は、エンコーダ-デコーダアーキテクチャを持つ新しいオープンコード大規模言語モデルのファミリーです。このモデルは、異なるモード（すなわち、エンコーダのみ、デコーダのみ、および_エンコーダ-デコーダ_）で柔軟に動作し、幅広いコード理解と生成タスクをサポートすることができます。このモデルは以下の論文で紹介されています。

CodeT5+: Open Code Large Language Models for Code Understanding and Generation 著者: Yue Wang*, Hung Le*, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi (* は同等の貢献を示します)。

元のCodeT5ファミリー（ベース: 220M、ラージ: 770M）と比較して、CodeT5+は、スパンノイジング、因果言語モデリング、対照学習、および_テキスト-コードマッチング_を含む多様な事前学習タスクで事前学習されており、単モーダルコードデータと二モーダルコード-テキストデータの両方から豊富な表現を学習します。さらに、CodeGenなどのオフザシェルフのLLMを凍結してモデルコンポーネントを初期化する、シンプルで効果的な_計算効率の高い事前学習_方法を採用しており、モデルを効率的に拡大することができます（すなわち、2B、6B、16B）。また、「浅いエンコーダと深いデコーダ」のアーキテクチャを採用しています。さらに、Code Alpacaに従って、自然言語命令に沿うように命令微調整されています（InstructCodeT5+ 16Bを参照）。

🚀 クイックスタート

このモデルは、T5ForConditionalGeneration機能を使用して簡単に読み込むことができ、元のCodeT5と同じトークナイザーを使用します。

from transformers import T5ForConditionalGeneration, AutoTokenizer

checkpoint = "Salesforce/codet5p-220m"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = T5ForConditionalGeneration.from_pretrained(checkpoint).to(device)

inputs = tokenizer.encode("def print_hello_world():<extra_id_0>", return_tensors="pt").to(device)
outputs = model.generate(inputs, max_length=10)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
# ==> print "Hello World"

📚 ドキュメント

事前学習データ

このチェックポイントは、github-codeデータセットの重複排除バージョンのより厳格な許容サブセットで学習されています。データは、許容ライセンスのコード（"mit"、"apache-2"、"bsd-3-clause"、"bsd-2-clause"、"cc0-1.0"、"unlicense"、"isc"）のみを残すように前処理されています。サポートされている言語（合計9種類）は以下の通りです。 c、c++、c-sharp、go、java、javascript、php、python、ruby。

学習手順

このチェックポイントは、第1段階の事前学習で単モーダルコードデータで学習されており、_スパンノイジング_と_因果言語モデリング_の2つのバリエーションを含む多様な事前学習タスクが含まれています。詳細については、論文を参照してください。

評価結果

CodeT5+モデルは、様々な設定（ゼロショット、微調整、および_命令微調整_）で幅広いコード理解と生成タスクに対して包括的に評価されています。具体的には、CodeT5+は、多くの下流タスクでSoTAベースラインと比較して大幅な性能向上をもたらします。例えば、 8つのテキスト-コード検索タスク（平均MRR +3.2）、2つの行レベルのコード補完タスク（平均正確一致 +2.1）、および2つの検索強化コード生成タスク（平均BLEU-4 +5.8）です。 MathQA-PythonとGSM8K-Pythonの2つの数学プログラミングタスクでは、10億パラメータ未満のCodeT5+モデルは、最大137Bパラメータの多くのLLMを大幅に上回っています。特に、HumanEvalベンチマークのゼロショットテキスト-コード生成タスクでは、InstructCodeT5+ 16Bは、他のオープンコードLLMに対して35.0%のpass@1と54.5%のpass@10という新しいSoTA結果を達成し、クローズドソースのOpenAI code-cushman-001モードを上回っています。詳細については、論文を参照してください。

BibTeXエントリと引用情報

@article{wang2023codet5plus,
  title={CodeT5+: Open Code Large Language Models for Code Understanding and Generation},
  author={Wang, Yue and Le, Hung and Gotmare, Akhilesh Deepak and Bui, Nghi D.Q. and Li, Junnan and Hoi, Steven C. H.},
  journal={arXiv preprint},
  year={2023}
}

倫理的な考慮事項

このリリースは、学術論文をサポートするための研究目的のみです。当社のモデル、データセット、およびコードは、すべての下流目的に対して特別に設計または評価されていません。ユーザーは、このモデルをデプロイする前に、精度、安全性、および公正性に関連する潜在的な問題を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限を考慮し、適用可能な法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオのユースケースを選択する際には、ベストプラクティスを活用することをお勧めします。ユースケースに関するさらなるガイダンスについては、当社のAUPとAI AUPを参照してください。