code_trans_t5_base_code_comment_generation_java_multitask_finetune開源模型

首頁

Code Trans T5 Base Code Comment Generation Java Multitask Finetune

由SEBIS開發

基於T5架構的Java代碼註釋生成模型，通過多任務預訓練和微調優化，專門用於為Java函數生成描述性文本。

大型語言模型 #Java函數文檔生成 #多任務預訓練 #T5架構優化

下載量 16

發布時間 : 3/2/2022

模型概述

該模型採用T5基礎架構，經過多任務訓練和Java代碼註釋生成任務的微調，能夠自動為Java函數生成高質量的註釋文本。

模型特點

多任務預訓練

在13個有監督任務和7個無監督數據集上進行預訓練，具備強大的代碼理解能力

Java代碼優化

專門針對Java語言進行微調，對Java函數註釋生成任務表現優異

分詞處理優化

對經過分詞的Java代碼處理效果最佳，但也能處理原始代碼

模型能力

Java函數註釋生成

代碼文檔自動生成

代碼理解與分析

使用案例

軟件開發

代碼文檔自動化

為Java代碼庫自動生成函數級文檔註釋

BLEU評分達39.50，優於當前最優技術

代碼理解輔助

幫助開發者快速理解複雜Java函數的功能

🚀 用於Java代碼註釋生成的CodeTrans模型

這是一個基於t5基礎模型架構，針對Java編程語言進行預訓練的模型。它首次發佈於此倉庫，在經過標記化處理的Java代碼函數上進行訓練，因此在處理這類數據時表現最佳。

🚀 快速開始

本模型可用於生成Java函數的描述，也可在其他Java代碼相關任務上進行微調。它可以處理未解析和未標記化的Java代碼，但如果代碼已經過標記化處理，模型的性能會更優。

以下是如何使用 Transformers 庫中的 SummarizationPipeline 來生成Java函數文檔的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_code_comment_generation_java_multitask_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_code_comment_generation_java_multitask_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = "protected String renderUri ( URI uri ) { return uri . toASCIIString ( ) ; }"
pipeline([tokenized_code])

你可以在 Colab筆記本中運行此示例。

✨ 主要特性

架構基礎：基於 t5-base 模型構建，擁有自己的SentencePiece詞彙模型。
訓練方式：採用多任務訓練，涵蓋軟件開發領域的13個有監督任務和7個無監督數據集，之後在Java函數/方法的代碼註釋生成任務上進行微調。

📦 安裝指南

文檔未提及具體安裝步驟，暫無法提供。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_code_comment_generation_java_multitask_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_code_comment_generation_java_multitask_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = "protected String renderUri ( URI uri ) { return uri . toASCIIString ( ) ; }"
pipeline([tokenized_code])

📚 詳細文檔

模型描述

此CodeTrans模型基於 t5-base 模型，具備自己的SentencePiece詞彙模型。它在軟件開發領域的13個有監督任務和7個無監督數據集上進行多任務訓練，隨後在Java函數/方法的代碼註釋生成任務上進行微調。

預期用途與限制

該模型可用於生成Java函數的描述，或在其他Java代碼任務上進行微調。它能處理未解析和未標記化的Java代碼，但標記化後的Java代碼會使模型性能更優。

訓練數據

有監督訓練任務的數據集可從此處下載。

訓練過程

多任務預訓練

模型在單個TPU Pod V3 - 8上進行了總共260,000步的訓練，序列長度為512（批量大小為4096）。模型總共有約2.2億個參數，採用編碼器 - 解碼器架構進行訓練。預訓練使用的優化器是AdaFactor，學習率採用逆平方根調度。

微調

模型隨後在單個TPU Pod V2 - 8上進行了總共60,000步的微調，序列長度為512（批量大小為256），僅使用包含Java代碼的數據集。

評估結果

在代碼文檔生成任務中，不同模型在不同編程語言上取得了以下BLEU分數：

語言 / 模型	Java
CodeTrans - ST - Small	37.98
CodeTrans - ST - Base	38.07
CodeTrans - TF - Small	38.56
CodeTrans - TF - Base	39.06
CodeTrans - TF - Large	39.50
CodeTrans - MT - Small	20.15
CodeTrans - MT - Base	27.44
CodeTrans - MT - Large	34.69
CodeTrans - MT - TF - Small	38.37
CodeTrans - MT - TF - Base	38.90
CodeTrans - MT - TF - Large	39.25
現有最優模型	38.17