code_trans_t5_large開源模型 - 免費部署助力Python代碼摘要高效生成

首頁

Code Trans T5 Large Source Code Summarization Python Transfer Learning Finetune

由SEBIS開發

基於t5-large架構的預訓練模型，專注於Python代碼摘要生成任務

文本生成 #Python代碼摘要 #遷移學習優化 #大參數量模型

下載量 29

發布時間 : 3/2/2022

模型概述

該模型針對Python代碼函數進行優化，能夠生成Python函數的描述性摘要，支持未解析和未分詞的Python代碼，但對分詞後的代碼表現更優。

模型特點

遷移學習預訓練

在軟件工程領域的7個無監督數據集上進行預訓練，增強了模型對代碼的理解能力

Python代碼優化

專門針對Python代碼進行優化，在分詞後的Python函數上表現最佳

大規模訓練

在TPU Pod上完成24萬步預訓練和100步微調，確保模型性能

模型能力

Python代碼摘要生成

代碼理解

文本生成

使用案例

軟件開發

自動生成函數文檔

為Python函數自動生成描述性文檔

BLEU得分13.37（Python代碼）

代碼理解輔助

幫助開發者快速理解複雜代碼的功能

🚀 CodeTrans模型用於Python源代碼摘要生成

CodeTrans模型基於t5-large架構，在Python編程語言上進行了預訓練，可用於生成Python函數的描述，也能在其他Python代碼任務上進行微調。該模型首次發佈於this repository，在標記化的Python代碼函數上進行訓練，因此在處理標記化的Python函數時效果最佳。

🚀 快速開始

模型使用示例

以下是如何使用Transformers的SummarizationPipeline來生成Python函數文檔的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_python_transfer_learning_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_python_transfer_learning_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code =  '''with open ( CODE_STRING , CODE_STRING ) as in_file : buf = in_file . readlines ( )  with open ( CODE_STRING , CODE_STRING ) as out_file : for line in buf :          if line ==   " ; Include this text   " :              line = line +   " Include below  "          out_file . write ( line ) '''
pipeline([tokenized_code])

你可以在colab notebook中運行此示例。

✨ 主要特性

架構基礎：基於t5-large模型構建，擁有自己的SentencePiece詞彙模型。
預訓練：在軟件開發領域的7個無監督數據集上進行了遷移學習預訓練。
微調：針對Python代碼片段的源代碼摘要生成任務進行了微調。
靈活性：可以處理未解析和未標記化的Python代碼，不過處理標記化的代碼時性能更佳。

📦 安裝指南

文檔未提供具體安裝步驟，暫不展示。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_python_transfer_learning_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_python_transfer_learning_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code =  '''with open ( CODE_STRING , CODE_STRING ) as in_file : buf = in_file . readlines ( )  with open ( CODE_STRING , CODE_STRING ) as out_file : for line in buf :          if line ==   " ; Include this text   " :              line = line +   " Include below  "          out_file . write ( line ) '''
pipeline([tokenized_code])

高級用法

文檔未提供高級用法示例，暫不展示。

📚 詳細文檔

模型描述

此CodeTrans模型基於t5-large模型，擁有自己的SentencePiece詞彙模型。它在軟件開發領域的7個無監督數據集上進行了遷移學習預訓練，然後針對Python代碼片段的源代碼摘要生成任務進行了微調。

預期用途和限制

該模型可用於生成Python函數的描述，也能在其他Python代碼任務上進行微調。它可以處理未解析和未標記化的Python代碼，但處理標記化的代碼時性能更佳。

訓練數據

有監督訓練任務的數據集可從Link下載。

訓練過程

遷移學習預訓練

模型在單個TPU Pod V3 - 8上總共訓練了240,000步，使用序列長度為512（批量大小為4096）。它總共有約2.2億個參數，採用編碼器 - 解碼器架構進行訓練。預訓練使用的優化器是AdaFactor，學習率採用逆平方根調度。

微調

該模型隨後在單個TPU Pod V2 - 8上針對僅包含Python代碼的數據集進行了100步的微調，使用序列長度為512（批量大小為256）。

評估結果

對於源代碼摘要生成任務，不同模型在不同編程語言上取得了以下BLEU分數結果：

語言 / 模型	Python	SQL	C#
CodeTrans - ST - Small	8.45	17.55	19.74
CodeTrans - ST - Base	9.12	15.00	18.65
CodeTrans - TF - Small	10.06	17.71	20.40
CodeTrans - TF - Base	10.94	17.66	21.12
CodeTrans - TF - Large	12.41	18.40	21.43
CodeTrans - MT - Small	13.11	19.15	22.39
CodeTrans - MT - Base	13.37	19.24	23.20
CodeTrans - MT - Large	13.24	19.40	23.57
CodeTrans - MT - TF - Small	12.10	18.25	22.03
CodeTrans - MT - TF - Base	10.64	16.91	21.40
CodeTrans - MT - TF - Large	12.14	19.98	21.10
CODE - NN	--	18.40	20.50