code_trans_t5_large开源模型 - 免费生成Java代码文档，擅长函数描述

首页

Code Trans T5 Large Code Documentation Generation Java Multitask

由 SEBIS 开发

基于T5大型架构的Java代码文档生成模型，支持多任务训练，擅长生成Java函数描述

大型语言模型 #Java函数文档生成 #多任务预训练 #T5大模型架构

下载量 13

发布时间 : 3/2/2022

模型简介

该模型专门用于生成Java代码的函数级文档，基于T5-large架构并通过多任务训练优化，在已分词的Java代码上表现最佳

模型特点

多任务训练

结合13个有监督任务和7个无监督数据集进行训练，增强模型泛化能力

分词优化

针对已分词的Java代码特别优化，在分词后的输入上表现最佳

大规模预训练

使用TPU Pod V3-8进行180,000步训练，序列长度512，批次大小4096

模型能力

Java函数文档生成

代码摘要生成

多任务代码处理

使用案例

软件开发

自动生成API文档

为Java库函数自动生成描述性文档

BLEU得分21.87（Java语言评估）

代码理解辅助

帮助开发者快速理解复杂函数的功能

🚀 CodeTrans模型用于Java代码文档生成

本项目是一个基于t5-large模型架构，在Java编程语言上进行预训练的模型。它能为Java函数生成描述，也可针对其他Java代码任务进行微调。该模型最初发布于此仓库，在经过标记化的Java代码函数上进行训练，因此在处理标记化的Java函数时效果最佳。

✨ 主要特性

基于t5-large模型，拥有自己的SentencePiece词汇模型。
采用多任务训练，涵盖软件开发领域的13个监督任务和7个无监督数据集。
可用于生成Java函数的描述，也能在其他Java代码任务上进行微调。
能处理未解析和未标记化的Java代码，但处理标记化代码时性能更佳。

📦 安装指南

此部分文档未提及具体安装步骤，可参考模型原仓库 CodeTrans 获取相关信息。

💻 使用示例

基础用法

以下是如何使用Transformers的SummarizationPipeline来生成Java函数文档的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_large_code_documentation_generation_java_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_large_code_documentation_generation_java_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = "public static < T , U > Function < T , U > castFunction  ( Class < U > target ) { return new CastToClass < T , U > ( target ) ; }"
pipeline([tokenized_code])

你可以在 colab notebook 中运行此示例。

📚 详细文档

模型描述

此CodeTrans模型基于t5-large模型构建，具备自己的SentencePiece词汇模型。它在软件开发领域的13个监督任务和7个无监督数据集上进行了多任务训练。

预期用途与限制

该模型可用于生成Java函数的描述，也能针对其他Java代码任务进行微调。它能处理未解析和未标记化的Java代码，但如果Java代码经过标记化处理，其性能会更好。

训练数据

有监督训练任务的数据集可从此处下载。

训练过程

多任务预训练

该模型在单个TPU Pod V3 - 8上总共训练了180,000步，使用的序列长度为512（批量大小为4096）。它总共有约2.2亿个参数，采用编码器 - 解码器架构进行训练。预训练时使用的优化器是AdaFactor，并采用平方根倒数学习率调度。

评估结果

对于代码文档任务，不同模型在不同编程语言上取得了以下结果（以BLEU分数衡量）：

语言 / 模型	Python	Java	Go	Php	Ruby	JavaScript
CodeTrans - ST - Small	17.31	16.65	16.89	23.05	9.19	13.7
CodeTrans - ST - Base	16.86	17.17	17.16	22.98	8.23	13.17
CodeTrans - TF - Small	19.93	19.48	18.88	25.35	13.15	17.23
CodeTrans - TF - Base	20.26	20.19	19.50	25.84	14.07	18.25
CodeTrans - TF - Large	20.35	20.06	19.54	26.18	14.94	18.98
CodeTrans - MT - Small	19.64	19.00	19.15	24.68	14.91	15.26
CodeTrans - MT - Base	20.39	21.22	19.43	26.23	15.26	16.11
CodeTrans - MT - Large	20.18	21.87	19.38	26.08	15.00	16.23
CodeTrans - MT - TF - Small	19.77	20.04	19.36	25.55	13.70	17.24
CodeTrans - MT - TF - Base	19.77	21.12	18.86	25.79	14.24	18.62
CodeTrans - MT - TF - Large	18.94	21.42	18.77	26.20	14.19	18.83
现有最优模型	19.06	17.65	18.07	25.16	12.16	14.90