code_trans_t5_small開源模型 - 免費實現Java代碼註釋生成與函數文檔自動生成

首頁

Code Trans T5 Small Code Comment Generation Java Multitask

由SEBIS開發

基於T5-small架構的Java代碼註釋生成模型，支持多任務訓練，適用於Java函數文檔自動生成

文本生成 #Java函數文檔生成 #多任務預訓練 #分詞優化處理

下載量 17

發布時間 : 3/2/2022

模型概述

該模型專門用於生成Java代碼函數的註釋文檔，經過多任務預訓練，在分詞後的Java代碼上表現最佳

模型特點

多任務訓練

模型在13個監督任務和7個無監督數據集上進行訓練，具備更強的泛化能力

分詞優化

針對分詞後的Java代碼處理效果最佳，支持未分詞代碼但性能稍遜

高效架構

基於T5-small架構，在保持性能的同時減少計算資源需求

模型能力

Java函數文檔生成

代碼註釋自動生成

多任務代碼處理

使用案例

軟件開發

自動生成API文檔

為Java函數自動生成描述性註釋，提高文檔編寫效率

BLEU得分達37.98-39.50(根據模型規模)

代碼理解輔助

通過生成的註釋幫助開發者快速理解複雜函數邏輯

🚀 用於Java代碼註釋生成的CodeTrans模型

本模型基於t5-small架構，在Java編程語言上進行預訓練。它最初發佈於此倉庫。該模型在經過分詞處理的Java代碼函數上進行訓練，因此在處理此類數據時效果最佳。

🚀 快速開始

本模型可用於生成Java函數的描述，也可在其他Java代碼任務上進行微調。它可以處理未解析和未分詞的Java代碼，但如果代碼已經過分詞處理，性能會更好。

✨ 主要特性

基於t5-small模型架構，擁有自己的SentencePiece詞彙模型。
使用多任務訓練，涵蓋軟件開發領域的13個有監督任務和7個無監督數據集。

📦 安裝指南

暫未提供相關安裝步驟內容。

💻 使用示例

基礎用法

以下是如何使用Transformers的SummarizationPipeline來生成Java函數文檔的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_small_code_comment_generation_java_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_small_code_comment_generation_java_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = "protected String renderUri ( URI uri ) { return uri . toASCIIString ( ) ; }"
pipeline([tokenized_code])

你可以在 colab notebook 中運行此示例。

📚 詳細文檔

模型描述

此CodeTrans模型基於t5-small模型，具備自己的SentencePiece詞彙模型，採用多任務訓練，涉及軟件開發領域的13個有監督任務和7個無監督數據集。

預期用途與限制

該模型可用於生成Java函數的描述，也能在其他Java代碼任務上進行微調。它可以處理未解析和未分詞的Java代碼，但對分詞後的Java代碼處理效果更佳。

訓練數據

有監督訓練任務的數據集可從此處下載。

訓練過程

多任務預訓練

該模型在單個TPU Pod V3 - 8上進行訓練，總共訓練360,000步，使用序列長度為512（批量大小為4096）。模型總共有約2.2億個參數，採用編碼器 - 解碼器架構進行訓練。預訓練使用的優化器是AdaFactor，並採用平方根倒數學習率調度。

評估結果

對於代碼文檔任務，不同模型在不同編程語言上取得了以下BLEU分數結果：

語言/模型	Java
CodeTrans - ST - Small	37.98
CodeTrans - ST - Base	38.07
CodeTrans - TF - Small	38.56
CodeTrans - TF - Base	39.06
CodeTrans - TF - Large	39.50
CodeTrans - MT - Small	20.15
CodeTrans - MT - Base	27.44
CodeTrans - MT - Large	34.69
CodeTrans - MT - TF - Small	38.37
CodeTrans - MT - TF - Base	38.90
CodeTrans - MT - TF - Large	39.25
現有最優模型	38.17