CodeT5-large開源代碼模型 - 免費助力代碼理解與高效生成任務

首頁

Codet5 Large

由Salesforce開發

CodeT5是基於標識符感知的統一預訓練編碼器-解碼器模型，專注於代碼理解與生成任務。

大型語言模型

Transformers

開源協議:Bsd-3-clause #代碼生成 #多語言編程 #標識符感知

下載量 3,796

發布時間 : 7/6/2022

模型概述

CodeT5是一個編碼器-解碼器語言模型家族，專門設計用於代碼理解和生成任務。大尺寸版本包含770M參數，在多種編程語言上進行了預訓練。

模型特點

標識符感知預訓練

模型在預訓練階段特別關注代碼中的標識符信息，提高了對代碼結構的理解能力

多語言支持

支持六種主流編程語言（Ruby/JavaScript/Go/Python/Java/PHP）

統一架構

採用編碼器-解碼器統一架構，同時支持代碼理解和生成任務

模型能力

代碼自動補全

代碼生成

代碼理解

代碼翻譯

使用案例

軟件開發輔助

代碼自動補全

在IDE中提供智能代碼補全建議

代碼生成

根據自然語言描述生成代碼片段

教育

編程學習輔助

幫助學生理解代碼結構和邏輯

🚀 CodeT5 (大尺寸模型 770M)

CodeT5是一系列用於代碼處理的編碼器 - 解碼器語言模型，旨在解決代碼理解和生成的相關問題，為開發者提供強大的代碼處理能力。

🚀 快速開始

此模型可使用 T5ForConditionalGeneration 功能輕鬆加載：

from transformers import AutoTokenizer, T5ForConditionalGeneration
tokenizer = AutoTokenizer.from_pretrained("Salesforce/codet5-large")
model = T5ForConditionalGeneration.from_pretrained("Salesforce/codet5-large")
text = "def greet(user): print(f'hello <extra_id_0>!')"
input_ids = tokenizer(text, return_tensors="pt").input_ids

# simply generate a single sequence
generated_ids = model.generate(input_ids, max_length=8)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

✨ 主要特性

CodeT5是一系列用於代碼的編碼器 - 解碼器語言模型，來自論文 CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation 。
本倉庫包含的檢查點為 CodeT5-large (770M)，由論文 CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning 引入。

📚 詳細文檔

訓練數據

CodeT5-large 在 CodeSearchNet 數據集上進行預訓練，該數據集包含六種編程語言（Ruby/JavaScript/Go/Python/Java/PHP）。更多詳細信息請參閱論文的第4.1節。

訓練過程

CodeT5-large 使用掩碼跨度預測目標進行了150個週期的預訓練。更多詳細信息請參閱論文的第4.1節。

評估結果

我們在 CodeXGLUE 基準測試中驗證了使用簡化策略預訓練的此檢查點的有效性。更多詳細信息請參閱論文的附錄A.1。

道德考量

本次發佈僅用於支持學術論文的研究目的。我們的模型、數據集和代碼並非專門為所有下游用途而設計或評估。我們強烈建議用戶在部署此模型之前，評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮人工智能的常見侷限性，遵守適用法律，並在選擇用例時遵循最佳實踐，特別是在錯誤或濫用可能對人們的生活、權利或安全產生重大影響的高風險場景中。有關用例的更多指導，請參閱我們的AUP和AI AUP。

📄 許可證

本項目採用BSD 3條款許可證。

📚 引用信息

@inproceedings{CodeT52021,
  author    = {Yue Wang and Weishi Wang and Shafiq R. Joty and Steven C. H. Hoi},
  title     = {CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation},
  booktitle = {EMNLP},
  pages     = {8696--8708},
  publisher = {Association for Computational Linguistics},
  year      = {2021}
}

@article{CodeRL2022
  author    = {Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven C.H. Hoi},
  title     = {CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning},
  journal   = {arXiv preprint},
  volume    = {abs/2207.01780},
  year      = {2022}
}