code_trans_t5_large开源预训练模型 - 免费部署实现C#代码摘要生成

首页

Code Trans T5 Large Source Code Summarization Csharp Multitask

由 SEBIS 开发

基于T5-large架构的预训练模型，专注于C#编程语言的源代码摘要生成任务

大型语言模型 #C#代码摘要 #多任务预训练 #大参数量模型

下载量 23

发布时间 : 3/2/2022

模型简介

该模型用于生成C#函数描述，支持未解析和未分词的C#代码，但对已分词的代码处理效果更佳。可通过微调用于其他C#代码任务。

模型特点

多任务训练

在软件开发领域的13个监督任务和7个无监督数据集上进行训练

优化分词处理

针对分词后的C#代码函数进行优化，在已分词的C#函数上表现最佳

高性能摘要生成

在C#代码摘要任务上达到23.57的BLEU得分，优于同类模型

模型能力

C#源代码摘要生成

函数文档自动生成

代码理解辅助

使用案例

软件开发

自动生成函数文档

为C#函数自动生成描述性文档

可帮助开发者快速理解代码功能

代码理解辅助

为复杂代码片段生成解释性摘要

提高代码审查和维护效率

🚀 用于C#源代码摘要生成的CodeTrans模型

本模型基于t5-large架构，在C#编程语言上进行预训练，可用于生成C#函数的描述，为软件开发提供便利。它首次发布于此仓库，在标记化的C#代码函数上进行训练，处理标记化的C#函数时效果最佳。

🚀 快速开始

模型描述

此CodeTrans模型基于t5-large模型构建，拥有自己的SentencePiece词汇模型。它在软件开发领域的13个有监督任务和7个无监督数据集上进行了多任务训练。

预期用途和限制

该模型可用于生成C#函数的描述，也可在其他C#代码任务上进行微调。它可以处理未解析和未标记化的C#代码，但如果C#代码经过标记化处理，性能会更好。

如何使用

以下是使用Transformers的SummarizationPipeline来生成C#函数文档的示例代码：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_csharp_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_csharp_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = "public static DateTime ParseUnixDateTime ( double unixTime ) { var dt = new DateTime ( CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , System . DateTimeKind . Utc ) ; dt = dt . AddSeconds ( unixTimeStamp ) . ToLocalTime ( ) ; return dt ; }"
pipeline([tokenized_code])

你可以在 Colab笔记本中运行此示例。

📦 安装指南

文档未提及安装相关内容，故跳过。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_csharp_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_csharp_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = "public static DateTime ParseUnixDateTime ( double unixTime ) { var dt = new DateTime ( CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , System . DateTimeKind . Utc ) ; dt = dt . AddSeconds ( unixTimeStamp ) . ToLocalTime ( ) ; return dt ; }"
pipeline([tokenized_code])

📚 详细文档

训练数据

有监督训练任务的数据集可从此处下载。

训练过程

多任务预训练

该模型在单个TPU Pod V3 - 8上进行了总共120,000步的训练，使用的序列长度为512（批量大小为4096）。它总共有约2.2亿个参数，采用编码器 - 解码器架构进行训练。预训练使用的优化器是AdaFactor，并采用平方根倒数学习率调度。

评估结果

对于源代码摘要生成任务，不同模型在不同编程语言上的评估结果（以BLEU分数衡量）如下：

语言/模型	Python	SQL	C#
CodeTrans - ST - Small	8.45	17.55	19.74
CodeTrans - ST - Base	9.12	15.00	18.65
CodeTrans - TF - Small	10.06	17.71	20.40
CodeTrans - TF - Base	10.94	17.66	21.12
CodeTrans - TF - Large	12.41	18.40	21.43
CodeTrans - MT - Small	13.11	19.15	22.39
CodeTrans - MT - Base	13.37	19.24	23.20
CodeTrans - MT - Large	13.24	19.40	23.57
CodeTrans - MT - TF - Small	12.10	18.25	22.03
CodeTrans - MT - TF - Base	10.64	16.91	21.40
CodeTrans - MT - TF - Large	12.14	19.98	21.10
CODE - NN	--	18.40	20.50

🔧 技术细节

此CodeTrans模型基于t5-large模型，拥有独立的SentencePiece词汇模型。它在软件开发领域的13个有监督任务和7个无监督数据集上进行多任务训练。在训练过程中，使用单个TPU Pod V3 - 8进行了120,000步的训练，序列长度为512，批量大小为4096。模型总共有约2.2亿个参数，采用编码器 - 解码器架构，预训练使用AdaFactor优化器和平方根倒数学习率调度。