code_trans_t5_small开源Go代码文档生成模型 - 免费生成Go函数方法文档描述

首页

Code Trans T5 Small Code Documentation Generation Go Multitask Finetune

由 SEBIS 开发

基于T5-small架构的Go代码文档生成模型，经过多任务预训练和微调，专门用于生成Go函数/方法的文档描述

文本生成 #Go函数文档生成 #多任务微调 #T5-small架构

下载量 14

发布时间 : 3/2/2022

模型简介

该模型针对Go编程语言设计，能够自动生成函数/方法的文档说明，支持未经解析和分词的Go代码，但对分词后的代码表现更优

模型特点

多任务预训练

在软件开发领域的13个有监督任务和7个无监督数据集上进行预训练，具有广泛的知识基础

Go语言专项微调

专门针对Go函数/方法的代码文档生成任务进行微调，在Go代码上表现优异

支持原始代码输入

可以直接处理未经解析和分词的Go代码，但对分词后的代码处理效果更佳

模型能力

Go代码文档生成

函数描述自动生成

代码理解

使用案例

软件开发

自动生成API文档

为Go项目中的函数和方法自动生成文档描述

BLEU得分19.54（在Go代码文档生成任务中）

代码理解辅助

帮助开发者理解复杂函数的用途和行为

🚀 CodeTrans模型：用于Go代码文档生成

CodeTrans是一个基于t5-small架构的预训练模型，专门针对Go编程语言进行训练。它可以为Go函数生成文档描述，在软件开发领域有着广泛的应用。该模型首次发布于this repository。

🚀 快速开始

本模型基于t5-small架构，拥有自己的SentencePiece词汇模型。它在软件开发领域的13个监督任务和7个无监督数据集上进行了多任务训练，然后针对Go函数/方法的代码文档生成任务进行了微调。

✨ 主要特性

多任务训练：在多个软件开发任务上进行训练，提升模型的泛化能力。
微调优化：针对Go代码文档生成任务进行微调，提高特定任务的性能。
支持未解析和未分词代码：可以处理未解析和未分词的Go代码，若代码经过分词处理，性能更佳。

📦 安装指南

使用此模型需要安装transformers库，你可以使用以下命令进行安装：

pip install transformers

💻 使用示例

基础用法

以下是使用Transformers SummarizationPipeline调用此模型生成Go函数文档的示例代码：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_small_code_documentation_generation_go_multitask_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_small_code_documentation_generation_go_multitask_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = "func ( pr * Progress ) needSnapshotAbort ( ) bool { return pr . State == ProgressStateSnapshot && pr . Match >= pr . PendingSnapshot   }"
pipeline([tokenized_code])

你可以在colab notebook中运行此示例。

📚 详细文档

训练数据

有监督训练任务的数据集可以从Link下载。

训练过程

多任务预训练

模型在单个TPU Pod V3 - 8上进行了总共50万步的训练，使用序列长度为512（批量大小为4096）。它总共有大约2.2亿个参数，采用编码器 - 解码器架构进行训练。预训练使用的优化器是AdaFactor，学习率采用逆平方根调度。

微调

此模型随后在单个TPU Pod V2 - 8上进行了2000步的微调，使用序列长度为512（批量大小为256），仅使用包含Go代码的数据集。

评估结果

在代码文档生成任务中，不同模型在不同编程语言上的BLEU得分如下：

语言 / 模型	Python	Java	Go	Php	Ruby	JavaScript
CodeTrans - ST - Small	17.31	16.65	16.89	23.05	9.19	13.7
CodeTrans - ST - Base	16.86	17.17	17.16	22.98	8.23	13.17
CodeTrans - TF - Small	19.93	19.48	18.88	25.35	13.15	17.23
CodeTrans - TF - Base	20.26	20.19	19.50	25.84	14.07	18.25
CodeTrans - TF - Large	20.35	20.06	19.54	26.18	14.94	18.98
CodeTrans - MT - Small	19.64	19.00	19.15	24.68	14.91	15.26
CodeTrans - MT - Base	20.39	21.22	19.43	26.23	15.26	16.11
CodeTrans - MT - Large	20.18	21.87	19.38	26.08	15.00	16.23
CodeTrans - MT - TF - Small	19.77	20.04	19.36	25.55	13.70	17.24
CodeTrans - MT - TF - Base	19.77	21.12	18.86	25.79	14.24	18.62
CodeTrans - MT - TF - Large	18.94	21.42	18.77	26.20	14.19	18.83
现有最优模型	19.06	17.65	18.07	25.16	12.16	14.90