code_trans_t5_base开源代码摘要模型 - 免费生成Python代码功能摘要

首页

Code Trans T5 Base Source Code Summarization Python

由 SEBIS 开发

基于T5架构的预训练模型，专门用于生成Python代码的功能摘要

文本生成 #Python代码摘要 #T5架构优化 #函数级文档生成

下载量 27

发布时间 : 3/2/2022

模型简介

该模型针对Python编程语言设计，能够自动生成Python函数的功能描述，支持对原始代码或分词后代码的处理

模型特点

专用Python代码处理

专门针对Python编程语言优化，在分词后的Python代码上表现最佳

单任务训练

专注于源代码摘要生成任务，在该任务上达到最优性能

独立词汇模型

使用独立的SentencePiece词汇模型，提高对编程语言特殊符号的处理能力

模型能力

Python代码摘要生成

源代码功能描述

代码文档自动生成

使用案例

代码文档化

函数文档自动生成

为Python函数自动生成功能描述文档

在测试集上达到13.37 BLEU评分（Base模型）

代码理解辅助

代码审查辅助

快速生成代码片段的功能摘要，辅助代码审查

🚀 CodeTrans模型：用于Python源代码摘要

CodeTrans模型基于t5基础模型架构，在Python编程语言上进行预训练。它能为Python代码生成描述，助力开发者理解代码逻辑。该模型首次发布于此仓库，在标记化的Python代码函数上进行训练，处理标记化的Python函数时效果最佳。

🚀 快速开始

此CodeTrans模型基于 t5-base 模型构建，拥有自己的SentencePiece词汇模型，在Python源代码摘要数据集上进行单任务训练。以下是使用Transformers的 SummarizationPipeline 调用该模型生成Python函数文档的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_source_code_summarization_python"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_source_code_summarization_python", skip_special_tokens=True),
    device=0
)

tokenized_code = '''with open ( CODE_STRING , CODE_STRING ) as in_file : buf = in_file . readlines ( )  with open ( CODE_STRING , CODE_STRING ) as out_file : for line in buf :          if line ==   " ; Include this text   " :              line = line +   " Include below  "          out_file . write ( line ) '''
pipeline([tokenized_code])

你可以在 colab notebook 中运行此示例。

✨ 主要特性

功能用途广泛：可用于生成Python函数的描述，也能在其他Python代码任务上进行微调。
适应性强：能处理未解析和未标记化的Python代码，对标记化的Python代码处理效果更佳。

📚 详细文档

模型描述

该CodeTrans模型基于 t5-base 模型，具备独立的SentencePiece词汇模型，采用单任务训练方式在Python源代码摘要数据集上进行训练。

预期用途和限制

此模型可用于生成Python函数的描述，或在其他Python代码任务上进行微调。它能处理未解析和未标记化的Python代码，但对标记化的Python代码处理性能更佳。

训练数据

有监督的训练任务数据集可从此处下载。

评估结果

对于源代码摘要任务，不同模型在不同编程语言上取得了以下BLEU分数结果：

语言 / 模型	Python	SQL	C#
CodeTrans-ST-Small	8.45	17.55	19.74
CodeTrans-ST-Base	9.12	15.00	18.65
CodeTrans-TF-Small	10.06	17.71	20.40
CodeTrans-TF-Base	10.94	17.66	21.12
CodeTrans-TF-Large	12.41	18.40	21.43
CodeTrans-MT-Small	13.11	19.15	22.39
CodeTrans-MT-Base	13.37	19.24	23.20
CodeTrans-MT-Large	13.24	19.40	23.57
CodeTrans-MT-TF-Small	12.10	18.25	22.03
CodeTrans-MT-TF-Base	10.64	16.91	21.40
CodeTrans-MT-TF-Large	12.14	19.98	21.10
CODE-NN	--	18.40	20.50