🚀 CodeT5+ 2B
CodeT5+は、エンコーダ・デコーダアーキテクチャを持つ新しいオープンコード大規模言語モデルのファミリーです。様々なモード(エンコーダのみ、デコーダのみ、エンコーダ・デコーダ)で柔軟に動作し、幅広いコード理解と生成タスクをサポートします。
🚀 クイックスタート
このモデルは、AutoModelForSeq2SeqLM
機能を使用して簡単に読み込むことができ、CodeGenと同じトークナイザーを採用しています。
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
checkpoint = "Salesforce/codet5p-2b"
device = "cuda"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint,
torch_dtype=torch.float16,
trust_remote_code=True).to(device)
encoding = tokenizer("def print_hello_world():", return_tensors="pt").to(device)
encoding['decoder_input_ids'] = encoding['input_ids'].clone()
outputs = model.generate(**encoding, max_length=15)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
✨ 主な機能
- 多様な事前学習タスク:CodeT5+は、元のCodeT5ファミリーと比較して、span denoising、causal language modeling、contrastive learning、_text-code matching_などの多様な事前学習タスクで事前学習されており、単一モーダルのコードデータと二モーダルのコード・テキストデータから豊富な表現を学習します。
- 効率的な事前学習方法:シンプルで効果的な_計算効率の高い事前学習_方法を採用し、CodeGenなどの既存の大規模言語モデルでモデルコンポーネントを初期化することで、効率的にモデルを拡張します(2B、6B、16B)。
- 浅いエンコーダと深いデコーダのアーキテクチャ:"浅いエンコーダと深いデコーダ"のアーキテクチャを採用しています。
- 自然言語命令への調整:Code Alpacaに従って、自然言語命令に合わせてインストラクションチューニングされています。
📦 インストール
このモデルを使用するには、transformers
ライブラリをインストールする必要があります。以下のコマンドでインストールできます。
pip install transformers
📚 ドキュメント
モデルの説明
CodeT5+は、エンコーダ・デコーダアーキテクチャを持つ新しいオープンコード大規模言語モデルのファミリーです。様々なモード(エンコーダのみ、デコーダのみ、エンコーダ・デコーダ)で柔軟に動作し、幅広いコード理解と生成タスクをサポートします。詳細は以下の論文を参照してください。
CodeT5+: Open Code Large Language Models for Code Understanding and Generation
著者: Yue Wang*, Hung Le*, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi (*は同等の貢献を示す)
事前学習データ
このチェックポイントは、github-codeデータセットの重複排除バージョンの厳格な許容サブセットで学習されています。データは、許容ライセンスのコードのみを残すように前処理されています("mit"、"apache-2"、"bsd-3-clause"、"bsd-2-clause"、"cc0-1.0"、"unlicense"、"isc")。サポートされる言語は合計9種類です。
c
, c++
, c-sharp
, go
, java
, javascript
, php
, python
, ruby
学習手順
このチェックポイントは、既存の大規模言語モデルから初期化されています。つまり、エンコーダはCodeGen-350M-monoから、デコーダはCodeGen-2B-monoから初期化されています。第一段階の事前学習では、単一モーダルのコードデータで学習され、_span denoising_や2種類の_causal language modeling_などの多様な事前学習タスクが含まれています。その後、Pythonサブセットで_causal language modeling_の目的でさらに学習され、Pythonコード生成により適応されます。詳細は論文を参照してください。
評価結果
CodeT5+モデルは、様々な設定(ゼロショット、ファインチューニング、インストラクションチューニング)で、幅広いコード理解と生成タスクに対して包括的に評価されています。具体的には、多くの下流タスクで、SoTAベースラインと比較して大幅な性能向上を示しています。例えば、8つのテキストからコードへの検索タスク(平均MRR +3.2)、2つの行レベルのコード補完タスク(平均Exact Match +2.1)、2つの検索拡張コード生成タスク(平均BLEU-4 +5.8)です。MathQA-PythonとGSM8K-Pythonの2つの数学プログラミングタスクでは、10億パラメータ未満のCodeT5+モデルが、最大137Bパラメータの多くの大規模言語モデルを大きく上回っています。特に、HumanEvalベンチマークのゼロショットテキストからコードへの生成タスクでは、InstructCodeT5+ 16Bが、他のオープンコード大規模言語モデルに対して35.0% pass@1と54.5% pass@10の新しいSoTA結果を達成し、閉ソースのOpenAI code-cushman-001モードを上回っています。詳細は論文を参照してください。
BibTeXエントリと引用情報
@article{wang2023codet5plus,
title={CodeT5+: Open Code Large Language Models for Code Understanding and Generation},
author={Wang, Yue and Le, Hung and Gotmare, Akhilesh Deepak and Bui, Nghi D.Q. and Li, Junnan and Hoi, Steven C. H.},
journal={arXiv preprint},
year={2023}
}
倫理的な考慮事項
このリリースは、学術論文のサポートのための研究目的のみです。当社のモデル、データセット、コードは、すべての下流目的に特に設計または評価されていません。ユーザーは、このモデルをデプロイする前に、精度、安全性、公平性に関する潜在的な懸念事項を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限を考慮し、適用される法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオのユースケースを選択する際には、ベストプラクティスを活用することをお勧めします。ユースケースに関する詳細なガイダンスについては、当社のAUPとAI AUPを参照してください。
📄 ライセンス
このモデルは、BSD 3条項ライセンスの下で提供されています。