code_trans_t5_large開源模型 - 免費生成Java函數/方法代碼註釋文檔

首頁

Code Trans T5 Large Code Comment Generation Java Multitask Finetune

由SEBIS開發

基於T5-large架構的預訓練模型，專門用於生成Java函數/方法的代碼註釋文檔

大型語言模型 #Java代碼註釋生成 #多任務預訓練 #T5大模型架構

下載量 22

發布時間 : 3/2/2022

模型概述

該模型通過多任務預訓練和微調，能夠根據Java函數代碼自動生成描述性註釋，支持原始代碼和分詞後代碼輸入，後者性能更優

模型特點

多任務預訓練

通過13項有監督任務和7個無監督數據集進行預訓練，具備強大的代碼理解能力

Java專項優化

針對Java語言特性進行專門微調，在Java代碼文檔生成任務中達到最優性能

分詞輸入優化

支持原始代碼輸入，但對分詞後的Java代碼處理效果更佳

模型能力

Java代碼理解

自動註釋生成

代碼文檔化

使用案例

軟件開發

自動生成API文檔

根據Java方法實現自動生成符合規範的註釋文檔

BLEU評分達39.50，優於同類模型

代碼可讀性增強

為遺留代碼庫自動添加說明性註釋

🚀 用於代碼文檔生成（Java）的CodeTrans模型

這是一個基於t5-large架構，在Java編程語言上進行預訓練的模型。它首次發佈於此倉庫。該模型在經過分詞處理的Java代碼函數上進行訓練，因此在處理分詞後的Java函數時表現最佳。

🚀 快速開始

模型描述

此CodeTrans模型基於t5-large模型構建，擁有自己的SentencePiece詞彙模型。它在軟件開發領域的13個有監督任務和7個無監督數據集上進行了多任務訓練，隨後在Java函數/方法的代碼註釋生成任務上進行了微調。

預期用途和侷限性

該模型可用於生成Java函數的描述，也可在其他Java代碼任務上進行微調。它可以處理未解析和未分詞的Java代碼，但如果Java代碼已經過分詞處理，模型性能會更好。

如何使用

以下是如何使用Transformers的SummarizationPipeline來生成Java函數文檔的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_large_code_comment_generation_java_multitask_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_large_code_comment_generation_java_multitask_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = "protected String renderUri ( URI uri ) { return uri . toASCIIString ( ) ; }"
pipeline([tokenized_code])

你可以在Colab筆記本中運行這個示例。

✨ 主要特性

基於t5-large模型架構，擁有獨立的SentencePiece詞彙模型。
採用多任務訓練，涵蓋軟件開發領域的13個有監督任務和7個無監督數據集。
針對Java函數/方法的代碼註釋生成任務進行了微調。

📦 安裝指南

暫未提及安裝相關內容，可參考模型倉庫中的說明進行安裝。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_large_code_comment_generation_java_multitask_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_large_code_comment_generation_java_multitask_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = "protected String renderUri ( URI uri ) { return uri . toASCIIString ( ) ; }"
pipeline([tokenized_code])

📚 詳細文檔

訓練數據

有監督訓練任務的數據集可以從這裡下載。

訓練過程

多任務預訓練

該模型在單個TPU Pod V3 - 8上進行了總共260,000步的訓練，使用的序列長度為512（批量大小為4096）。模型總共約有2.2億個參數，採用編碼器 - 解碼器架構進行訓練。預訓練使用的優化器是AdaFactor，並採用平方根倒數學習率調度。

微調

該模型隨後在單個TPU Pod V3 - 8上進行了總共25,000步的微調，使用的序列長度為512（批量大小為256），僅使用包含Java代碼的數據集。

評估結果

對於代碼文檔生成任務，不同模型在不同編程語言上的評估結果（以BLEU分數衡量）如下：

語言 / 模型	Java
CodeTrans - ST - Small	37.98
CodeTrans - ST - Base	38.07
CodeTrans - TF - Small	38.56
CodeTrans - TF - Base	39.06
CodeTrans - TF - Large	39.50
CodeTrans - MT - Small	20.15
CodeTrans - MT - Base	27.44
CodeTrans - MT - Large	34.69
CodeTrans - MT - TF - Small	38.37
CodeTrans - MT - TF - Base	38.90
CodeTrans - MT - TF - Large	39.25
現有最優模型	38.17