オープンソースのCodeT5p-770mコード大規模モデル - 無料でのデプロイによりコード理解と生成タスクをサポート

ホーム

Codet5p 770m

Salesforceによって開発

CodeT5+はオープンソースのコード大規模言語モデルファミリーで、エンコーダ-デコーダアーキテクチャを採用し、多様なモードをサポート、幅広いコード理解と生成タスクに適しています。

大規模言語モデル

Transformers

オープンソースライセンス:Bsd-3-clause #コード大規模言語モデル #多プログラミング言語サポート #コード理解と生成

ダウンロード数 4,801

リリース時間 : 5/13/2023

モデル概要

CodeT5+は新しいオープンソースのコード大規模言語モデルファミリーで、エンコーダ-デコーダアーキテクチャを採用し、純粋なエンコーダ、純粋なデコーダ、エンコーダ-デコーダなど多様なモードを柔軟にサポート、幅広いコード理解と生成タスクに適しています。

モデル特徴

多様な事前学習タスク

スニペットデノイジング、因果的言語モデリング、対照学習、テキスト-コードマッチングなど多様な事前学習タスクを通じて、単一モーダルのコードデータと二重モーダルのコード-テキストデータから豊かな表現を学習します。

計算効率の良い事前学習

既存の大規模言語モデルコンポーネントを凍結して初期化する革新的な計算効率の良い事前学習方法を採用し、モデル規模を効率的に拡張します。

多様なモードの柔軟なサポート

純粋なエンコーダ、純粋なデコーダ、エンコーダ-デコーダなど多様なモードをサポートし、幅広いコード理解と生成タスクに適しています。

モデル能力

コード理解

コード生成

テキスト-コード検索

行レベルのコード補完

検索強化型コード生成

使用事例

コード生成

関数補完

関数シグネチャに基づいて関数本体を自動補完

HumanEvalベンチマークのゼロショットテキスト-コード生成タスクにおいて、InstructCodeT5+ 16Bは35.0% pass@1と54.5% pass@10を達成し、オープンソースモデルの記録を更新しました。

コード理解

コード検索

自然言語記述に基づいて関連するコードスニペットを検索

8つのテキスト-コード検索タスクで平均MRRが3.2向上しました。

🚀 CodeT5+ 770M

CodeT5+は、エンコーダ・デコーダアーキテクチャを持つ新しいオープンコードの大規模言語モデルです。様々なコード理解と生成タスクをサポートするため、異なるモード（エンコーダのみ、デコーダのみ、エンコーダ・デコーダ）で柔軟に動作できます。

🚀 クイックスタート

このモデルは、T5ForConditionalGeneration機能を使用して簡単にロードでき、元のCodeT5と同じトークナイザーを採用しています。

from transformers import T5ForConditionalGeneration, AutoTokenizer

checkpoint = "Salesforce/codet5p-770m"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = T5ForConditionalGeneration.from_pretrained(checkpoint).to(device)

inputs = tokenizer.encode("def print_hello_world():<extra_id_0>", return_tensors="pt").to(device)
outputs = model.generate(inputs, max_length=10)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
# ==> print "Hello World"

✨ 主な機能

元のCodeT5ファミリーと比較して、CodeT5+は多様な事前学習タスクで事前学習されており、単モーダルコードデータと二モーダルコード・テキストデータから豊富な表現を学習します。
シンプルで効果的な計算効率の高い事前学習方法を採用し、オフザシェルフのLLMでモデルコンポーネントを初期化して、モデルを効率的に拡張します。
自然言語命令に沿うように命令微調整されています。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

📚 ドキュメント

モデルの説明

CodeT5+は、エンコーダ・デコーダアーキテクチャを持つ新しいオープンコードの大規模言語モデルです。以下の論文で紹介されています。

CodeT5+: Open Code Large Language Models for Code Understanding and Generation 著者: Yue Wang*, Hung Le*, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi (* は同等の貢献を示す)

事前学習データ

このチェックポイントは、github-codeデータセットの重複排除バージョンの厳格な許容サブセットで学習されています。データは、許容ライセンスのコードのみを残すように前処理されています。サポートされる言語は合計9種類です。 c, c++, c-sharp, go, java, javascript, php, python, ruby

学習手順

このチェックポイントは、第一段階の事前学習で単モーダルコードデータで学習されており、span denoising や2種類の_causal language modeling_ などの多様な事前学習タスクを含んでいます。詳細は論文を参照してください。

評価結果

CodeT5+モデルは、様々な設定（ゼロショット、微調整、命令微調整）で幅広いコード理解と生成タスクに対して総合的に評価されています。多くの下流タスクで、SoTAベースラインと比較して大幅な性能向上を達成しています。詳細は論文を参照してください。

🔧 技術詳細

CodeT5+は、多様な事前学習タスクで事前学習され、単モーダルコードデータと二モーダルコード・テキストデータから豊富な表現を学習します。また、計算効率の高い事前学習方法を採用し、オフザシェルフのLLMでモデルコンポーネントを初期化して、モデルを効率的に拡張します。さらに、自然言語命令に沿うように命令微調整されています。

📄 ライセンス

このモデルはBSD 3条項ライセンスの下で提供されています。

BibTeXエントリと引用情報

@article{wang2023codet5plus,
  title={CodeT5+: Open Code Large Language Models for Code Understanding and Generation},
  author={Wang, Yue and Le, Hung and Gotmare, Akhilesh Deepak and Bui, Nghi D.Q. and Li, Junnan and Hoi, Steven C. H.},
  journal={arXiv preprint},
  year={2023}
}

倫理的な考慮事項

このリリースは学術論文のサポートのための研究目的のみです。当社のモデル、データセット、コードは、すべての下流目的に特に設計または評価されていません。ユーザーは、このモデルを展開する前に、精度、安全性、公平性に関する潜在的な懸念事項を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限事項を考慮し、適用される法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオのユースケースを選択する際には、ベストプラクティスを活用することをお勧めします。ユースケースに関する詳細なガイダンスについては、当社のAUPおよびAI AUPを参照してください。