code_trans_t5_base_commit_generation开源模型 - 免费生成优化的Git提交消息

首页

Code Trans T5 Base Commit Generation

由 SEBIS 开发

基于T5基础架构的Git提交消息生成模型，针对分词后的Git提交进行优化训练

文本生成 #Git提交生成 #代码变更摘要 #T5架构优化

下载量 15

发布时间 : 3/2/2022

模型简介

该模型专门用于根据Git代码变更自动生成提交消息，基于t5-base架构并采用单任务训练方式

模型特点

分词优化

针对分词后的Git提交进行专门训练，在分词输入上表现最佳

单任务专注

采用单任务训练方式，专注于Git提交消息生成任务

预训练模型适配

基于t5-base模型架构，拥有独立的SentencePiece词汇模型

模型能力

自动生成Git提交消息

处理未解析的Git变更

处理分词后的Git变更

使用案例

软件开发

自动生成代码提交说明

根据代码变更自动生成规范的Git提交消息

在Java代码上达到44.41 BLEU评分

版本控制自动化

集成到CI/CD流程中自动生成有意义的提交记录

🚀 CodeTrans模型用于Git提交消息生成

CodeTrans模型基于t5-base架构在Git提交数据上进行预训练，可用于生成Git提交消息，能在未解析和未分词的提交变更上使用，若变更经过分词处理，性能更佳。

🚀 快速开始

此CodeTrans模型基于t5-base模型，拥有自己的SentencePiece词汇模型，在Git提交消息生成数据集上进行单任务训练。它可用于为Git提交变更生成提交消息，也能在其他相关任务上进行微调。

✨ 主要特性

基于t5-base模型架构，有独立的SentencePiece词汇模型。
采用单任务训练，在Git提交消息生成数据集上进行训练。
可用于未解析和未分词的提交变更，分词后的变更输入性能更佳。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

基础用法

以下是如何使用Transformers的SummarizationPipeline来生成Git提交消息的示例代码：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_commit_generation"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_commit_generation", skip_special_tokens=True),
    device=0
)

tokenized_code = "new file mode 100644 index 000000000 . . 892fda21b Binary files / dev / null and b / src / plugins / gateway / lib / joscar . jar differ"
pipeline([tokenized_code])

你可以在colab notebook中运行此示例。

📚 详细文档

模型描述

此CodeTrans模型基于t5-base模型，拥有自己的SentencePiece词汇模型，在Git提交消息生成数据集上进行单任务训练。

预期用途与限制

该模型可用于为Git提交变更生成提交消息，也能在其他相关任务上进行微调。它可以在未解析和未分词的提交变更上使用，但如果变更经过分词处理，性能会更好。

训练数据

有监督的训练任务数据集可以从此链接下载。

评估结果

对于Git提交消息生成任务，不同模型在不同编程语言上取得了以下结果（以BLEU分数衡量）：

语言 / 模型	Java
CodeTrans - ST - Small	39.61
CodeTrans - ST - Base	38.67
CodeTrans - TF - Small	44.22
CodeTrans - TF - Base	44.17
CodeTrans - TF - Large	44.41
CodeTrans - MT - Small	36.17
CodeTrans - MT - Base	39.25
CodeTrans - MT - Large	41.18
CodeTrans - MT - TF - Small	43.96
CodeTrans - MT - TF - Base	44.19
CodeTrans - MT - TF - Large	44.34
现有最优模型	32.81