code_trans_t5_large開源預訓練模型 - 免費部署實現C#代碼摘要生成

首頁

Code Trans T5 Large Source Code Summarization Csharp Multitask

由SEBIS開發

基於T5-large架構的預訓練模型，專注於C#編程語言的源代碼摘要生成任務

大型語言模型 #C#代碼摘要 #多任務預訓練 #大參數量模型

下載量 23

發布時間 : 3/2/2022

模型概述

該模型用於生成C#函數描述，支持未解析和未分詞的C#代碼，但對已分詞的代碼處理效果更佳。可通過微調用於其他C#代碼任務。

模型特點

多任務訓練

在軟件開發領域的13個監督任務和7個無監督數據集上進行訓練

優化分詞處理

針對分詞後的C#代碼函數進行優化，在已分詞的C#函數上表現最佳

高性能摘要生成

在C#代碼摘要任務上達到23.57的BLEU得分，優於同類模型

模型能力

C#源代碼摘要生成

函數文檔自動生成

代碼理解輔助

使用案例

軟件開發

自動生成函數文檔

為C#函數自動生成描述性文檔

可幫助開發者快速理解代碼功能

代碼理解輔助

為複雜代碼片段生成解釋性摘要

提高代碼審查和維護效率

🚀 用於C#源代碼摘要生成的CodeTrans模型

本模型基於t5-large架構，在C#編程語言上進行預訓練，可用於生成C#函數的描述，為軟件開發提供便利。它首次發佈於此倉庫，在標記化的C#代碼函數上進行訓練，處理標記化的C#函數時效果最佳。

🚀 快速開始

模型描述

此CodeTrans模型基於t5-large模型構建，擁有自己的SentencePiece詞彙模型。它在軟件開發領域的13個有監督任務和7個無監督數據集上進行了多任務訓練。

預期用途和限制

該模型可用於生成C#函數的描述，也可在其他C#代碼任務上進行微調。它可以處理未解析和未標記化的C#代碼，但如果C#代碼經過標記化處理，性能會更好。

如何使用

以下是使用Transformers的SummarizationPipeline來生成C#函數文檔的示例代碼：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_csharp_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_csharp_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = "public static DateTime ParseUnixDateTime ( double unixTime ) { var dt = new DateTime ( CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , System . DateTimeKind . Utc ) ; dt = dt . AddSeconds ( unixTimeStamp ) . ToLocalTime ( ) ; return dt ; }"
pipeline([tokenized_code])

你可以在 Colab筆記本中運行此示例。

📦 安裝指南

文檔未提及安裝相關內容，故跳過。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_csharp_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_csharp_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = "public static DateTime ParseUnixDateTime ( double unixTime ) { var dt = new DateTime ( CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , CODE_INTEGER , System . DateTimeKind . Utc ) ; dt = dt . AddSeconds ( unixTimeStamp ) . ToLocalTime ( ) ; return dt ; }"
pipeline([tokenized_code])

📚 詳細文檔

訓練數據

有監督訓練任務的數據集可從此處下載。

訓練過程

多任務預訓練

該模型在單個TPU Pod V3 - 8上進行了總共120,000步的訓練，使用的序列長度為512（批量大小為4096）。它總共有約2.2億個參數，採用編碼器 - 解碼器架構進行訓練。預訓練使用的優化器是AdaFactor，並採用平方根倒數學習率調度。

評估結果

對於源代碼摘要生成任務，不同模型在不同編程語言上的評估結果（以BLEU分數衡量）如下：

語言/模型	Python	SQL	C#
CodeTrans - ST - Small	8.45	17.55	19.74
CodeTrans - ST - Base	9.12	15.00	18.65
CodeTrans - TF - Small	10.06	17.71	20.40
CodeTrans - TF - Base	10.94	17.66	21.12
CodeTrans - TF - Large	12.41	18.40	21.43
CodeTrans - MT - Small	13.11	19.15	22.39
CodeTrans - MT - Base	13.37	19.24	23.20
CodeTrans - MT - Large	13.24	19.40	23.57
CodeTrans - MT - TF - Small	12.10	18.25	22.03
CodeTrans - MT - TF - Base	10.64	16.91	21.40
CodeTrans - MT - TF - Large	12.14	19.98	21.10
CODE - NN	--	18.40	20.50

🔧 技術細節

此CodeTrans模型基於t5-large模型，擁有獨立的SentencePiece詞彙模型。它在軟件開發領域的13個有監督任務和7個無監督數據集上進行多任務訓練。在訓練過程中，使用單個TPU Pod V3 - 8進行了120,000步的訓練，序列長度為512，批量大小為4096。模型總共有約2.2億個參數，採用編碼器 - 解碼器架構，預訓練使用AdaFactor優化器和平方根倒數學習率調度。