開源code_trans_t5_base模型 - 免費為Python函數生成描述性代碼文檔

首頁

Code Trans T5 Base Code Documentation Generation Python

由SEBIS開發

基於T5架構的Python代碼文檔生成模型，專門用於為Python函數生成描述性文檔

文本生成 #Python函數摘要 #代碼文檔自動化 #T5架構優化

下載量 144

發布時間 : 3/2/2022

模型概述

該模型基於T5基礎架構，針對Python編程語言進行預訓練，主要用於生成Python函數的文檔描述。在分詞後的Python代碼上表現最佳。

模型特點

針對Python代碼優化

專門針對Python編程語言進行預訓練和優化

支持原始代碼輸入

可直接處理未解析和未分詞的原始Python代碼

單任務訓練

採用單任務訓練方式，專注於代碼文檔生成任務

模型能力

Python函數文檔生成

代碼摘要生成

使用案例

代碼文檔自動化

函數文檔生成

為Python函數自動生成描述性文檔

在Python代碼上達到17.31 BLEU分數

開發工具集成

IDE插件

集成到開發環境中自動生成代碼文檔

🚀 用於Python代碼文檔生成的CodeTrans模型

本模型基於t5-base架構，在Python編程語言上進行預訓練。它首次發佈於此倉庫。該模型在經過分詞處理的Python代碼函數上進行訓練，因此在處理分詞後的Python函數時表現最佳。

🚀 快速開始

模型描述

此CodeTrans模型基於t5-base模型構建，擁有自己的SentencePiece詞彙模型。它在CodeSearchNet語料庫的Python數據集上進行單任務訓練。

預期用途與限制

該模型可用於生成Python函數的描述，也可在其他Python代碼任務上進行微調。它可以處理未解析和未分詞的Python代碼，但如果代碼經過分詞處理，性能會更好。

使用方法

以下是使用Transformers的SummarizationPipeline來使用該模型生成Python函數文檔的示例代碼：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_python"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_python", skip_special_tokens=True),
    device=0
)

tokenized_code = "def e ( message , exit_code = None ) : print_log ( message , YELLOW , BOLD ) if exit_code is not None : sys . exit ( exit_code )"
pipeline([tokenized_code])

你可以在 Colab筆記本中運行此示例。

訓練數據

有監督訓練任務的數據集可以從此鏈接下載。

評估結果

對於代碼文檔生成任務，不同模型在不同編程語言上取得了以下BLEU分數結果：

語言 / 模型	Python	Java	Go	Php	Ruby	JavaScript
CodeTrans-ST-Small	17.31	16.65	16.89	23.05	9.19	13.7
CodeTrans-ST-Base	16.86	17.17	17.16	22.98	8.23	13.17
CodeTrans-TF-Small	19.93	19.48	18.88	25.35	13.15	17.23
CodeTrans-TF-Base	20.26	20.19	19.50	25.84	14.07	18.25
CodeTrans-TF-Large	20.35	20.06	19.54	26.18	14.94	18.98
CodeTrans-MT-Small	19.64	19.00	19.15	24.68	14.91	15.26
CodeTrans-MT-Base	20.39	21.22	19.43	26.23	15.26	16.11
CodeTrans-MT-Large	20.18	21.87	19.38	26.08	15.00	16.23
CodeTrans-MT-TF-Small	19.77	20.04	19.36	25.55	13.70	17.24
CodeTrans-MT-TF-Base	19.77	21.12	18.86	25.79	14.24	18.62
CodeTrans-MT-TF-Large	18.94	21.42	18.77	26.20	14.19	18.83
現有最優模型	19.06	17.65	18.07	25.16	12.16	14.90