code_trans_t5_small开源模型 - 免费实现Java代码注释生成与函数文档自动生成

首页

Code Trans T5 Small Code Comment Generation Java Multitask

由 SEBIS 开发

基于T5-small架构的Java代码注释生成模型，支持多任务训练，适用于Java函数文档自动生成

文本生成 #Java函数文档生成 #多任务预训练 #分词优化处理

下载量 17

发布时间 : 3/2/2022

模型简介

该模型专门用于生成Java代码函数的注释文档，经过多任务预训练，在分词后的Java代码上表现最佳

模型特点

多任务训练

模型在13个监督任务和7个无监督数据集上进行训练，具备更强的泛化能力

分词优化

针对分词后的Java代码处理效果最佳，支持未分词代码但性能稍逊

高效架构

基于T5-small架构，在保持性能的同时减少计算资源需求

模型能力

Java函数文档生成

代码注释自动生成

多任务代码处理

使用案例

软件开发

自动生成API文档

为Java函数自动生成描述性注释，提高文档编写效率

BLEU得分达37.98-39.50(根据模型规模)

代码理解辅助

通过生成的注释帮助开发者快速理解复杂函数逻辑

🚀 用于Java代码注释生成的CodeTrans模型

本模型基于t5-small架构，在Java编程语言上进行预训练。它最初发布于此仓库。该模型在经过分词处理的Java代码函数上进行训练，因此在处理此类数据时效果最佳。

🚀 快速开始

本模型可用于生成Java函数的描述，也可在其他Java代码任务上进行微调。它可以处理未解析和未分词的Java代码，但如果代码已经过分词处理，性能会更好。

✨ 主要特性

基于t5-small模型架构，拥有自己的SentencePiece词汇模型。
使用多任务训练，涵盖软件开发领域的13个有监督任务和7个无监督数据集。

📦 安装指南

暂未提供相关安装步骤内容。

💻 使用示例

基础用法

以下是如何使用Transformers的SummarizationPipeline来生成Java函数文档的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_small_code_comment_generation_java_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_small_code_comment_generation_java_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = "protected String renderUri ( URI uri ) { return uri . toASCIIString ( ) ; }"
pipeline([tokenized_code])

你可以在 colab notebook 中运行此示例。

📚 详细文档

模型描述

此CodeTrans模型基于t5-small模型，具备自己的SentencePiece词汇模型，采用多任务训练，涉及软件开发领域的13个有监督任务和7个无监督数据集。

预期用途与限制

该模型可用于生成Java函数的描述，也能在其他Java代码任务上进行微调。它可以处理未解析和未分词的Java代码，但对分词后的Java代码处理效果更佳。

训练数据

有监督训练任务的数据集可从此处下载。

训练过程

多任务预训练

该模型在单个TPU Pod V3 - 8上进行训练，总共训练360,000步，使用序列长度为512（批量大小为4096）。模型总共有约2.2亿个参数，采用编码器 - 解码器架构进行训练。预训练使用的优化器是AdaFactor，并采用平方根倒数学习率调度。

评估结果

对于代码文档任务，不同模型在不同编程语言上取得了以下BLEU分数结果：

语言/模型	Java
CodeTrans - ST - Small	37.98
CodeTrans - ST - Base	38.07
CodeTrans - TF - Small	38.56
CodeTrans - TF - Base	39.06
CodeTrans - TF - Large	39.50
CodeTrans - MT - Small	20.15
CodeTrans - MT - Base	27.44
CodeTrans - MT - Large	34.69
CodeTrans - MT - TF - Small	38.37
CodeTrans - MT - TF - Base	38.90
CodeTrans - MT - TF - Large	39.25
现有最优模型	38.17