code_trans_t5_base开源模型 - 免费支持多任务，高效生成Java函数文档

首页

Code Trans T5 Base Code Documentation Generation Java Multitask

由 SEBIS 开发

基于T5架构的预训练模型，专门用于生成Java函数文档，支持多任务处理

文本生成 #Java代码摘要 #多任务预训练 #函数级文档生成

下载量 57

发布时间 : 3/2/2022

模型简介

该模型针对Java编程语言优化，能够自动生成函数级别的代码文档，适用于软件开发中的代码注释自动化场景

模型特点

多任务训练

覆盖13个有监督任务和7个无监督数据集，增强模型泛化能力

分词优化

专门针对分词后的Java代码进行优化，处理效果更佳

TPU高效训练

使用TPU Pod V3-8进行大规模训练，确保模型性能

模型能力

Java函数文档生成

代码摘要生成

多任务代码处理

使用案例

软件开发

自动化代码注释

为Java函数自动生成API文档注释

BLEU评分达21.87（Java语言）

代码理解辅助

生成函数功能描述，帮助开发者快速理解代码逻辑

🚀 CodeTrans模型：用于Java代码文档生成

CodeTrans是一个基于t5-base架构的预训练模型，专门针对Java编程语言进行训练。该模型可用于生成Java函数的描述，也能在其他Java代码任务上进行微调。它首次发布于this repository。此模型在经过分词的Java代码函数上进行训练，因此在处理分词后的Java函数时表现最佳。

🚀 快速开始

本模型可用于生成Java函数的文档描述，以下是使用Transformers库中的SummarizationPipeline调用该模型的示例代码：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_java_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_java_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = "public static < T , U > Function < T , U > castFunction  ( Class < U > target ) { return new CastToClass < T , U > ( target ) ; }"
pipeline([tokenized_code])

你可以在colab notebook中运行此示例。

✨ 主要特性

基于t5-base架构：本模型采用t5-base模型架构，并拥有自己的SentencePiece词汇模型。
多任务训练：在软件开发领域的13个有监督任务和7个无监督数据集上进行多任务训练。
广泛适用性：可用于未解析和未分词的Java代码，但对分词后的代码处理效果更佳。

📦 安装指南

文档中未提及具体安装步骤，若需使用可参考transformers库的安装方法。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_java_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_java_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = "public static < T , U > Function < T , U > castFunction  ( Class < U > target ) { return new CastToClass < T , U > ( target ) ; }"
pipeline([tokenized_code])

高级用法

文档中未提及高级用法相关代码示例。

📚 详细文档

模型描述

本CodeTrans模型基于t5-base模型构建，拥有自己的SentencePiece词汇模型。它在软件开发领域的13个有监督任务和7个无监督数据集上进行了多任务训练。

预期用途与限制

该模型可用于生成Java函数的描述，也能在其他Java代码任务上进行微调。它可以处理未解析和未分词的Java代码，但如果代码经过分词处理，模型性能会更好。

训练数据

有监督训练任务的数据集可从Link下载。

训练过程

多任务预训练

模型在单个TPU Pod V3 - 8上进行了总共480,000步的训练，使用的序列长度为512（批量大小为4096）。模型总共有约2.2亿个参数，采用编码器 - 解码器架构进行训练。预训练使用的优化器是AdaFactor，并采用逆平方根学习率调度。

评估结果

对于代码文档生成任务，不同模型在不同编程语言上的测试结果（以BLEU分数衡量）如下：

语言 / 模型	Python	Java	Go	Php	Ruby	JavaScript
CodeTrans - ST - Small	17.31	16.65	16.89	23.05	9.19	13.7
CodeTrans - ST - Base	16.86	17.17	17.16	22.98	8.23	13.17
CodeTrans - TF - Small	19.93	19.48	18.88	25.35	13.15	17.23
CodeTrans - TF - Base	20.26	20.19	19.50	25.84	14.07	18.25
CodeTrans - TF - Large	20.35	20.06	19.54	26.18	14.94	18.98
CodeTrans - MT - Small	19.64	19.00	19.15	24.68	14.91	15.26
CodeTrans - MT - Base	20.39	21.22	19.43	26.23	15.26	16.11
CodeTrans - MT - Large	20.18	21.87	19.38	26.08	15.00	16.23
CodeTrans - MT - TF - Small	19.77	20.04	19.36	25.55	13.70	17.24
CodeTrans - MT - TF - Base	19.77	21.12	18.86	25.79	14.24	18.62
CodeTrans - MT - TF - Large	18.94	21.42	18.77	26.20	14.19	18.83
现有最优模型	19.06	17.65	18.07	25.16	12.16	14.90

🔧 技术细节

本模型基于t5-base架构，使用SentencePiece词汇模型。在训练过程中，采用了多任务学习的方法，结合了13个有监督任务和7个无监督数据集。训练在单个TPU Pod V3 - 8上进行，共480,000步，序列长度为512，批量大小为4096。优化器使用AdaFactor，并采用逆平方根学习率调度。