code_trans_t5_base_code_comment_generation_java_multitask_finetune开源模型

首页

Code Trans T5 Base Code Comment Generation Java Multitask Finetune

由 SEBIS 开发

基于T5架构的Java代码注释生成模型，通过多任务预训练和微调优化，专门用于为Java函数生成描述性文本。

大型语言模型 #Java函数文档生成 #多任务预训练 #T5架构优化

下载量 16

发布时间 : 3/2/2022

模型简介

该模型采用T5基础架构，经过多任务训练和Java代码注释生成任务的微调，能够自动为Java函数生成高质量的注释文本。

模型特点

多任务预训练

在13个有监督任务和7个无监督数据集上进行预训练，具备强大的代码理解能力

Java代码优化

专门针对Java语言进行微调，对Java函数注释生成任务表现优异

分词处理优化

对经过分词的Java代码处理效果最佳，但也能处理原始代码

模型能力

Java函数注释生成

代码文档自动生成

代码理解与分析

使用案例

软件开发

代码文档自动化

为Java代码库自动生成函数级文档注释

BLEU评分达39.50，优于当前最优技术

代码理解辅助

帮助开发者快速理解复杂Java函数的功能

🚀 用于Java代码注释生成的CodeTrans模型

这是一个基于t5基础模型架构，针对Java编程语言进行预训练的模型。它首次发布于此仓库，在经过标记化处理的Java代码函数上进行训练，因此在处理这类数据时表现最佳。

🚀 快速开始

本模型可用于生成Java函数的描述，也可在其他Java代码相关任务上进行微调。它可以处理未解析和未标记化的Java代码，但如果代码已经过标记化处理，模型的性能会更优。

以下是如何使用 Transformers 库中的 SummarizationPipeline 来生成Java函数文档的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_code_comment_generation_java_multitask_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_code_comment_generation_java_multitask_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = "protected String renderUri ( URI uri ) { return uri . toASCIIString ( ) ; }"
pipeline([tokenized_code])

你可以在 Colab笔记本中运行此示例。

✨ 主要特性

架构基础：基于 t5-base 模型构建，拥有自己的SentencePiece词汇模型。
训练方式：采用多任务训练，涵盖软件开发领域的13个有监督任务和7个无监督数据集，之后在Java函数/方法的代码注释生成任务上进行微调。

📦 安装指南

文档未提及具体安装步骤，暂无法提供。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_code_comment_generation_java_multitask_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_code_comment_generation_java_multitask_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = "protected String renderUri ( URI uri ) { return uri . toASCIIString ( ) ; }"
pipeline([tokenized_code])

📚 详细文档

模型描述

此CodeTrans模型基于 t5-base 模型，具备自己的SentencePiece词汇模型。它在软件开发领域的13个有监督任务和7个无监督数据集上进行多任务训练，随后在Java函数/方法的代码注释生成任务上进行微调。

预期用途与限制

该模型可用于生成Java函数的描述，或在其他Java代码任务上进行微调。它能处理未解析和未标记化的Java代码，但标记化后的Java代码会使模型性能更优。

训练数据

有监督训练任务的数据集可从此处下载。

训练过程

多任务预训练

模型在单个TPU Pod V3 - 8上进行了总共260,000步的训练，序列长度为512（批量大小为4096）。模型总共有约2.2亿个参数，采用编码器 - 解码器架构进行训练。预训练使用的优化器是AdaFactor，学习率采用逆平方根调度。

微调

模型随后在单个TPU Pod V2 - 8上进行了总共60,000步的微调，序列长度为512（批量大小为256），仅使用包含Java代码的数据集。

评估结果

在代码文档生成任务中，不同模型在不同编程语言上取得了以下BLEU分数：

语言 / 模型	Java
CodeTrans - ST - Small	37.98
CodeTrans - ST - Base	38.07
CodeTrans - TF - Small	38.56
CodeTrans - TF - Base	39.06
CodeTrans - TF - Large	39.50
CodeTrans - MT - Small	20.15
CodeTrans - MT - Base	27.44
CodeTrans - MT - Large	34.69
CodeTrans - MT - TF - Small	38.37
CodeTrans - MT - TF - Base	38.90
CodeTrans - MT - TF - Large	39.25
现有最优模型	38.17