🚀 CodeT5+ 770M (Pythonでさらに微調整済み)
CodeT5+は、エンコーダ・デコーダアーキテクチャを持つ新しいオープンコードの大規模言語モデルです。このモデルは、さまざまなモード(エンコーダのみ、デコーダのみ、エンコーダ・デコーダ)で柔軟に動作し、幅広いコード理解と生成タスクをサポートします。
🚀 クイックスタート
このモデルは、T5ForConditionalGeneration
機能を使用して簡単にロードでき、元のCodeT5と同じトークナイザーを採用しています。
💻 使用例
基本的な使用法
from transformers import T5ForConditionalGeneration, AutoTokenizer
checkpoint = "Salesforce/codet5p-770m-py"
device = "cuda"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = T5ForConditionalGeneration.from_pretrained(checkpoint).to(device)
inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to(device)
outputs = model.generate(inputs, max_length=10)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📚 ドキュメント
モデルの説明
CodeT5+は、エンコーダ・デコーダアーキテクチャを持つ新しいオープンコードの大規模言語モデルのファミリーです。このモデルは、さまざまなモード(エンコーダのみ、デコーダのみ、エンコーダ・デコーダ)で柔軟に動作し、幅広いコード理解と生成タスクをサポートします。
このモデルについては、以下の論文で紹介されています。
CodeT5+: Open Code Large Language Models for Code Understanding and Generation
著者: Yue Wang*, Hung Le*, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi (*は同等の貢献を示す)
元のCodeT5ファミリー(ベース: 220M
、ラージ: 770M
)と比較して、CodeT5+は、span denoising、causal language modeling、contrastive learning、text-code matching などの多様な事前学習タスクで事前学習されており、単モーダルのコードデータとバイモーダルのコード・テキストデータの両方から豊富な表現を学習します。
さらに、このモデルは、CodeGenなどの既存の凍結された大規模言語モデルを使用してモデルコンポーネントを初期化する、シンプルで効果的な compute-efficient pretraining 方法を採用しており、効率的にモデルを拡張(2B
、6B
、16B
)することができます。また、「浅いエンコーダと深いデコーダ」のアーキテクチャを採用しています。
さらに、このモデルは、Code Alpacaに従って、自然言語命令に合わせて命令微調整されています(InstructCodeT5+ 16Bを参照)。
事前学習データ
このチェックポイントは、github-code datasetの重複排除バージョンのより厳格な許容サブセットで学習されています。
データは、許容ライセンスのコード("mit"、"apache-2"、"bsd-3-clause"、"bsd-2-clause"、"cc0-1.0"、"unlicense"、"isc")のみを残すように前処理されています。
サポートされる言語(合計9種類)は以下の通りです。
c
、c++
、c-sharp
、go
、java
、javascript
、php
、python
、ruby
学習手順
このチェックポイントは、最初の段階の事前学習では多言語の単モーダルコードデータで学習され、span denoising と causal language modeling の2つのバリエーションを含む多様な事前学習タスクが行われます。
その後、Pythonサブセットで causal language modeling の目的でさらに1エポック学習され、Pythonコード生成により適応するようになっています。詳細は論文を参照してください。
評価結果
CodeT5+モデルは、さまざまな設定(ゼロショット、微調整、命令微調整)で、幅広いコード理解と生成タスクに対して包括的に評価されています。
具体的には、CodeT5+は、多くの下流タスクでSoTAベースラインと比較して大幅な性能向上をもたらします。例えば、
8つのテキストからコードへの検索タスク(平均MRR +3.2)、2つの行レベルのコード補完タスク(平均正確一致 +2.1)、2つの検索拡張コード生成タスク(平均BLEU-4 +5.8)です。
MathQA-PythonとGSM8K-Pythonの2つの数学プログラミングタスクでは、10億パラメータ未満のCodeT5+モデルが、最大137Bパラメータの多くの大規模言語モデルを大幅に上回っています。
特に、HumanEvalベンチマークのゼロショットテキストからコードへの生成タスクでは、InstructCodeT5+ 16Bが、他のオープンコードの大規模言語モデルに対して35.0%のpass@1と54.5%のpass@10という新しいSoTA結果を達成し、クローズドソースのOpenAI code-cushman-001モードを上回っています。
詳細は論文を参照してください。
具体的にこのチェックポイントは、ゼロショット設定でHumanEvalで15.5%のpass@1を達成しており、Incoder 6Bの15.2%、GPT-NeoX 20Bの15.4%、PaLM 62Bの15.9%など、はるかに大きな大規模言語モデルと匹敵しています。
BibTeXエントリと引用情報
@article{wang2023codet5plus,
title={CodeT5+: Open Code Large Language Models for Code Understanding and Generation},
author={Wang, Yue and Le, Hung and Gotmare, Akhilesh Deepak and Bui, Nghi D.Q. and Li, Junnan and Hoi, Steven C. H.},
journal={arXiv preprint},
year={2023}
}
倫理的な考慮事項
このリリースは、学術論文のサポートのための研究目的のみです。当社のモデル、データセット、コードは、すべての下流目的に対して特別に設計または評価されていません。ユーザーは、このモデルを展開する前に、精度、安全性、公正性に関する潜在的な懸念事項を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限事項を考慮し、適用される法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオのユースケースを選択する際には、ベストプラクティスを活用することをお勧めします。ユースケースに関するさらなるガイダンスについては、当社のAUPとAI AUPを参照してください。
📄 ライセンス
このモデルはBSD 3条項ライセンス(bsd-3-clause)の下で提供されています。