code_trans_t5_base_commit_generation開源模型 - 免費生成優化的Git提交消息

首頁

Code Trans T5 Base Commit Generation

由SEBIS開發

基於T5基礎架構的Git提交消息生成模型，針對分詞後的Git提交進行優化訓練

文本生成 #Git提交生成 #代碼變更摘要 #T5架構優化

下載量 15

發布時間 : 3/2/2022

模型概述

該模型專門用於根據Git代碼變更自動生成提交消息，基於t5-base架構並採用單任務訓練方式

模型特點

分詞優化

針對分詞後的Git提交進行專門訓練，在分詞輸入上表現最佳

單任務專注

採用單任務訓練方式，專注於Git提交消息生成任務

預訓練模型適配

基於t5-base模型架構，擁有獨立的SentencePiece詞彙模型

模型能力

自動生成Git提交消息

處理未解析的Git變更

處理分詞後的Git變更

使用案例

軟件開發

自動生成代碼提交說明

根據代碼變更自動生成規範的Git提交消息

在Java代碼上達到44.41 BLEU評分

版本控制自動化

集成到CI/CD流程中自動生成有意義的提交記錄

🚀 CodeTrans模型用於Git提交消息生成

CodeTrans模型基於t5-base架構在Git提交數據上進行預訓練，可用於生成Git提交消息，能在未解析和未分詞的提交變更上使用，若變更經過分詞處理，性能更佳。

🚀 快速開始

此CodeTrans模型基於t5-base模型，擁有自己的SentencePiece詞彙模型，在Git提交消息生成數據集上進行單任務訓練。它可用於為Git提交變更生成提交消息，也能在其他相關任務上進行微調。

✨ 主要特性

基於t5-base模型架構，有獨立的SentencePiece詞彙模型。
採用單任務訓練，在Git提交消息生成數據集上進行訓練。
可用於未解析和未分詞的提交變更，分詞後的變更輸入性能更佳。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

💻 使用示例

基礎用法

以下是如何使用Transformers的SummarizationPipeline來生成Git提交消息的示例代碼：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_commit_generation"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_commit_generation", skip_special_tokens=True),
    device=0
)

tokenized_code = "new file mode 100644 index 000000000 . . 892fda21b Binary files / dev / null and b / src / plugins / gateway / lib / joscar . jar differ"
pipeline([tokenized_code])

你可以在colab notebook中運行此示例。

📚 詳細文檔

模型描述

此CodeTrans模型基於t5-base模型，擁有自己的SentencePiece詞彙模型，在Git提交消息生成數據集上進行單任務訓練。

預期用途與限制

該模型可用於為Git提交變更生成提交消息，也能在其他相關任務上進行微調。它可以在未解析和未分詞的提交變更上使用，但如果變更經過分詞處理，性能會更好。

訓練數據

有監督的訓練任務數據集可以從此鏈接下載。

評估結果

對於Git提交消息生成任務，不同模型在不同編程語言上取得了以下結果（以BLEU分數衡量）：

語言 / 模型	Java
CodeTrans - ST - Small	39.61
CodeTrans - ST - Base	38.67
CodeTrans - TF - Small	44.22
CodeTrans - TF - Base	44.17
CodeTrans - TF - Large	44.41
CodeTrans - MT - Small	36.17
CodeTrans - MT - Base	39.25
CodeTrans - MT - Large	41.18
CodeTrans - MT - TF - Small	43.96
CodeTrans - MT - TF - Base	44.19
CodeTrans - MT - TF - Large	44.34
現有最優模型	32.81