code_trans_t5_base開源模型 - 免費支持多任務，高效生成Java函數文檔

首頁

Code Trans T5 Base Code Documentation Generation Java Multitask

由SEBIS開發

基於T5架構的預訓練模型，專門用於生成Java函數文檔，支持多任務處理

文本生成 #Java代碼摘要 #多任務預訓練 #函數級文檔生成

下載量 57

發布時間 : 3/2/2022

模型概述

該模型針對Java編程語言優化，能夠自動生成函數級別的代碼文檔，適用於軟件開發中的代碼註釋自動化場景

模型特點

多任務訓練

覆蓋13個有監督任務和7個無監督數據集，增強模型泛化能力

分詞優化

專門針對分詞後的Java代碼進行優化，處理效果更佳

TPU高效訓練

使用TPU Pod V3-8進行大規模訓練，確保模型性能

模型能力

Java函數文檔生成

代碼摘要生成

多任務代碼處理

使用案例

軟件開發

自動化代碼註釋

為Java函數自動生成API文檔註釋

BLEU評分達21.87（Java語言）

代碼理解輔助

生成函數功能描述，幫助開發者快速理解代碼邏輯

🚀 CodeTrans模型：用於Java代碼文檔生成

CodeTrans是一個基於t5-base架構的預訓練模型，專門針對Java編程語言進行訓練。該模型可用於生成Java函數的描述，也能在其他Java代碼任務上進行微調。它首次發佈於this repository。此模型在經過分詞的Java代碼函數上進行訓練，因此在處理分詞後的Java函數時表現最佳。

🚀 快速開始

本模型可用於生成Java函數的文檔描述，以下是使用Transformers庫中的SummarizationPipeline調用該模型的示例代碼：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_java_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_java_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = "public static < T , U > Function < T , U > castFunction  ( Class < U > target ) { return new CastToClass < T , U > ( target ) ; }"
pipeline([tokenized_code])

你可以在colab notebook中運行此示例。

✨ 主要特性

基於t5-base架構：本模型採用t5-base模型架構，並擁有自己的SentencePiece詞彙模型。
多任務訓練：在軟件開發領域的13個有監督任務和7個無監督數據集上進行多任務訓練。
廣泛適用性：可用於未解析和未分詞的Java代碼，但對分詞後的代碼處理效果更佳。

📦 安裝指南

文檔中未提及具體安裝步驟，若需使用可參考transformers庫的安裝方法。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_java_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_java_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = "public static < T , U > Function < T , U > castFunction  ( Class < U > target ) { return new CastToClass < T , U > ( target ) ; }"
pipeline([tokenized_code])

高級用法

文檔中未提及高級用法相關代碼示例。

📚 詳細文檔

模型描述

本CodeTrans模型基於t5-base模型構建，擁有自己的SentencePiece詞彙模型。它在軟件開發領域的13個有監督任務和7個無監督數據集上進行了多任務訓練。

預期用途與限制

該模型可用於生成Java函數的描述，也能在其他Java代碼任務上進行微調。它可以處理未解析和未分詞的Java代碼，但如果代碼經過分詞處理，模型性能會更好。

訓練數據

有監督訓練任務的數據集可從Link下載。

訓練過程

多任務預訓練

模型在單個TPU Pod V3 - 8上進行了總共480,000步的訓練，使用的序列長度為512（批量大小為4096）。模型總共有約2.2億個參數，採用編碼器 - 解碼器架構進行訓練。預訓練使用的優化器是AdaFactor，並採用逆平方根學習率調度。

評估結果

對於代碼文檔生成任務，不同模型在不同編程語言上的測試結果（以BLEU分數衡量）如下：

語言 / 模型	Python	Java	Go	Php	Ruby	JavaScript
CodeTrans - ST - Small	17.31	16.65	16.89	23.05	9.19	13.7
CodeTrans - ST - Base	16.86	17.17	17.16	22.98	8.23	13.17
CodeTrans - TF - Small	19.93	19.48	18.88	25.35	13.15	17.23
CodeTrans - TF - Base	20.26	20.19	19.50	25.84	14.07	18.25
CodeTrans - TF - Large	20.35	20.06	19.54	26.18	14.94	18.98
CodeTrans - MT - Small	19.64	19.00	19.15	24.68	14.91	15.26
CodeTrans - MT - Base	20.39	21.22	19.43	26.23	15.26	16.11
CodeTrans - MT - Large	20.18	21.87	19.38	26.08	15.00	16.23
CodeTrans - MT - TF - Small	19.77	20.04	19.36	25.55	13.70	17.24
CodeTrans - MT - TF - Base	19.77	21.12	18.86	25.79	14.24	18.62
CodeTrans - MT - TF - Large	18.94	21.42	18.77	26.20	14.19	18.83
現有最優模型	19.06	17.65	18.07	25.16	12.16	14.90

🔧 技術細節

本模型基於t5-base架構，使用SentencePiece詞彙模型。在訓練過程中，採用了多任務學習的方法，結合了13個有監督任務和7個無監督數據集。訓練在單個TPU Pod V3 - 8上進行，共480,000步，序列長度為512，批量大小為4096。優化器使用AdaFactor，並採用逆平方根學習率調度。