开源code_trans_t5_base模型 - 免费为Python函数生成描述性代码文档

首页

Code Trans T5 Base Code Documentation Generation Python

由 SEBIS 开发

基于T5架构的Python代码文档生成模型，专门用于为Python函数生成描述性文档

文本生成 #Python函数摘要 #代码文档自动化 #T5架构优化

下载量 144

发布时间 : 3/2/2022

模型简介

该模型基于T5基础架构，针对Python编程语言进行预训练，主要用于生成Python函数的文档描述。在分词后的Python代码上表现最佳。

模型特点

针对Python代码优化

专门针对Python编程语言进行预训练和优化

支持原始代码输入

可直接处理未解析和未分词的原始Python代码

单任务训练

采用单任务训练方式，专注于代码文档生成任务

模型能力

Python函数文档生成

代码摘要生成

使用案例

代码文档自动化

函数文档生成

为Python函数自动生成描述性文档

在Python代码上达到17.31 BLEU分数

开发工具集成

IDE插件

集成到开发环境中自动生成代码文档

🚀 用于Python代码文档生成的CodeTrans模型

本模型基于t5-base架构，在Python编程语言上进行预训练。它首次发布于此仓库。该模型在经过分词处理的Python代码函数上进行训练，因此在处理分词后的Python函数时表现最佳。

🚀 快速开始

模型描述

此CodeTrans模型基于t5-base模型构建，拥有自己的SentencePiece词汇模型。它在CodeSearchNet语料库的Python数据集上进行单任务训练。

预期用途与限制

该模型可用于生成Python函数的描述，也可在其他Python代码任务上进行微调。它可以处理未解析和未分词的Python代码，但如果代码经过分词处理，性能会更好。

使用方法

以下是使用Transformers的SummarizationPipeline来使用该模型生成Python函数文档的示例代码：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_python"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_python", skip_special_tokens=True),
    device=0
)

tokenized_code = "def e ( message , exit_code = None ) : print_log ( message , YELLOW , BOLD ) if exit_code is not None : sys . exit ( exit_code )"
pipeline([tokenized_code])

你可以在 Colab笔记本中运行此示例。

训练数据

有监督训练任务的数据集可以从此链接下载。

评估结果

对于代码文档生成任务，不同模型在不同编程语言上取得了以下BLEU分数结果：

语言 / 模型	Python	Java	Go	Php	Ruby	JavaScript
CodeTrans-ST-Small	17.31	16.65	16.89	23.05	9.19	13.7
CodeTrans-ST-Base	16.86	17.17	17.16	22.98	8.23	13.17
CodeTrans-TF-Small	19.93	19.48	18.88	25.35	13.15	17.23
CodeTrans-TF-Base	20.26	20.19	19.50	25.84	14.07	18.25
CodeTrans-TF-Large	20.35	20.06	19.54	26.18	14.94	18.98
CodeTrans-MT-Small	19.64	19.00	19.15	24.68	14.91	15.26
CodeTrans-MT-Base	20.39	21.22	19.43	26.23	15.26	16.11
CodeTrans-MT-Large	20.18	21.87	19.38	26.08	15.00	16.23
CodeTrans-MT-TF-Small	19.77	20.04	19.36	25.55	13.70	17.24
CodeTrans-MT-TF-Base	19.77	21.12	18.86	25.79	14.24	18.62
CodeTrans-MT-TF-Large	18.94	21.42	18.77	26.20	14.19	18.83
现有最优模型	19.06	17.65	18.07	25.16	12.16	14.90