code_trans_t5_large开源模型 - 免费生成Java函数/方法代码注释文档

首页

Code Trans T5 Large Code Comment Generation Java Multitask Finetune

由 SEBIS 开发

基于T5-large架构的预训练模型，专门用于生成Java函数/方法的代码注释文档

大型语言模型 #Java代码注释生成 #多任务预训练 #T5大模型架构

下载量 22

发布时间 : 3/2/2022

模型简介

该模型通过多任务预训练和微调，能够根据Java函数代码自动生成描述性注释，支持原始代码和分词后代码输入，后者性能更优

模型特点

多任务预训练

通过13项有监督任务和7个无监督数据集进行预训练，具备强大的代码理解能力

Java专项优化

针对Java语言特性进行专门微调，在Java代码文档生成任务中达到最优性能

分词输入优化

支持原始代码输入，但对分词后的Java代码处理效果更佳

模型能力

Java代码理解

自动注释生成

代码文档化

使用案例

软件开发

自动生成API文档

根据Java方法实现自动生成符合规范的注释文档

BLEU评分达39.50，优于同类模型

代码可读性增强

为遗留代码库自动添加说明性注释

🚀 用于代码文档生成（Java）的CodeTrans模型

这是一个基于t5-large架构，在Java编程语言上进行预训练的模型。它首次发布于此仓库。该模型在经过分词处理的Java代码函数上进行训练，因此在处理分词后的Java函数时表现最佳。

🚀 快速开始

模型描述

此CodeTrans模型基于t5-large模型构建，拥有自己的SentencePiece词汇模型。它在软件开发领域的13个有监督任务和7个无监督数据集上进行了多任务训练，随后在Java函数/方法的代码注释生成任务上进行了微调。

预期用途和局限性

该模型可用于生成Java函数的描述，也可在其他Java代码任务上进行微调。它可以处理未解析和未分词的Java代码，但如果Java代码已经过分词处理，模型性能会更好。

如何使用

以下是如何使用Transformers的SummarizationPipeline来生成Java函数文档的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_large_code_comment_generation_java_multitask_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_large_code_comment_generation_java_multitask_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = "protected String renderUri ( URI uri ) { return uri . toASCIIString ( ) ; }"
pipeline([tokenized_code])

你可以在Colab笔记本中运行这个示例。

✨ 主要特性

基于t5-large模型架构，拥有独立的SentencePiece词汇模型。
采用多任务训练，涵盖软件开发领域的13个有监督任务和7个无监督数据集。
针对Java函数/方法的代码注释生成任务进行了微调。

📦 安装指南

暂未提及安装相关内容，可参考模型仓库中的说明进行安装。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_large_code_comment_generation_java_multitask_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_large_code_comment_generation_java_multitask_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = "protected String renderUri ( URI uri ) { return uri . toASCIIString ( ) ; }"
pipeline([tokenized_code])

📚 详细文档

训练数据

有监督训练任务的数据集可以从这里下载。

训练过程

多任务预训练

该模型在单个TPU Pod V3 - 8上进行了总共260,000步的训练，使用的序列长度为512（批量大小为4096）。模型总共约有2.2亿个参数，采用编码器 - 解码器架构进行训练。预训练使用的优化器是AdaFactor，并采用平方根倒数学习率调度。

微调

该模型随后在单个TPU Pod V3 - 8上进行了总共25,000步的微调，使用的序列长度为512（批量大小为256），仅使用包含Java代码的数据集。

评估结果

对于代码文档生成任务，不同模型在不同编程语言上的评估结果（以BLEU分数衡量）如下：

语言 / 模型	Java
CodeTrans - ST - Small	37.98
CodeTrans - ST - Base	38.07
CodeTrans - TF - Small	38.56
CodeTrans - TF - Base	39.06
CodeTrans - TF - Large	39.50
CodeTrans - MT - Small	20.15
CodeTrans - MT - Base	27.44
CodeTrans - MT - Large	34.69
CodeTrans - MT - TF - Small	38.37
CodeTrans - MT - TF - Base	38.90
CodeTrans - MT - TF - Large	39.25
现有最优模型	38.17