code_trans_t5_base開源代碼文檔生成模型 - 免費為Python函數生成描述文檔

首頁

Code Trans T5 Base Code Documentation Generation Python Multitask Finetune

由SEBIS開發

基於T5架構的Python代碼文檔生成模型，經過多任務預訓練和微調，專門用於生成Python函數的描述文檔

文本生成 #Python函數文檔生成 #多任務預訓練 #代碼語義理解

下載量 26

發布時間 : 3/2/2022

模型概述

該模型是基於T5基礎架構、針對Python編程語言進行預訓練的代碼文檔生成模型，能夠為Python函數/方法自動生成描述性文檔

模型特點

多任務預訓練

在13項有監督任務和7個無監督數據集上進行預訓練，增強了模型的泛化能力

Python專用優化

專門針對Python代碼進行訓練和微調，對Python函數文檔生成任務表現優異

支持分詞處理

對分詞後的Python代碼處理效果最佳，同時也支持處理原始代碼

模型能力

Python函數文檔自動生成

代碼理解與摘要

多任務學習能力

使用案例

軟件開發

自動生成API文檔

為Python庫中的函數自動生成描述性文檔

BLEU評分20.39（Python文檔生成任務）

代碼理解輔助工具

幫助開發者快速理解複雜函數的功能

🚀 CodeTrans模型用於Python代碼文檔生成

本模型基於t5-base架構，在Python編程語言上進行預訓練，可用於生成Python函數的描述文檔。它首次發佈於此倉庫，在經過分詞處理的Python代碼函數上進行訓練，因此在處理這類輸入時表現最佳。

🚀 快速開始

本部分將介紹如何使用該模型生成Python函數的文檔。

示例代碼

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_python_multitask_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_python_multitask_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = "def e ( message , exit_code = None ) : print_log ( message , YELLOW , BOLD ) if exit_code is not None : sys . exit ( exit_code )"
pipeline([tokenized_code])

你可以在 Colab筆記本中運行此示例。

✨ 主要特性

基於t5-base模型：擁有自己的SentencePiece詞彙模型。
多任務訓練：在軟件開發領域的13個監督任務和7個無監督數據集上進行多任務訓練，然後針對Python函數/方法的代碼文檔生成任務進行微調。
靈活適用：可用於生成Python函數的描述，也可在其他Python代碼任務上進行微調，並且可以處理未解析和未分詞的Python代碼，但對分詞後的代碼處理效果更佳。

📦 安裝指南

文檔中未提及具體安裝步驟，暫不提供。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_python_multitask_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_python_multitask_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = "def e ( message , exit_code = None ) : print_log ( message , YELLOW , BOLD ) if exit_code is not None : sys . exit ( exit_code )"
pipeline([tokenized_code])

📚 詳細文檔

模型描述

此CodeTrans模型基於t5-base模型構建，有自己的SentencePiece詞彙模型。它在軟件開發領域的13個監督任務和7個無監督數據集上進行多任務訓練，之後針對Python函數/方法的代碼文檔生成任務進行微調。

預期用途和限制

該模型可用於生成Python函數的描述，或在其他Python代碼任務上進行微調。它可以處理未解析和未分詞的Python代碼，但如果代碼經過分詞處理，性能會更好。

🔧 技術細節

訓練數據

有監督訓練任務的數據集可從此處下載。

訓練過程

多任務預訓練

模型在單個TPU Pod V3 - 8上總共訓練了50萬步，使用序列長度為512（批量大小為4096）。它總共有約2.2億個參數，採用編碼器 - 解碼器架構進行訓練。預訓練使用的優化器是AdaFactor，採用逆平方根學習率調度。

微調

該模型隨後在單個TPU Pod V2 - 8上總共微調了4000步，使用序列長度為512（批量大小為256），僅使用包含Python代碼的數據集。

評估結果

對於代碼文檔任務，不同模型在不同編程語言上的測試結果（以BLEU分數衡量）如下：

語言 / 模型	Python	Java	Go	Php	Ruby	JavaScript
CodeTrans - ST - Small	17.31	16.65	16.89	23.05	9.19	13.7
CodeTrans - ST - Base	16.86	17.17	17.16	22.98	8.23	13.17
CodeTrans - TF - Small	19.93	19.48	18.88	25.35	13.15	17.23
CodeTrans - TF - Base	20.26	20.19	19.50	25.84	14.07	18.25
CodeTrans - TF - Large	20.35	20.06	19.54	26.18	14.94	18.98
CodeTrans - MT - Small	19.64	19.00	19.15	24.68	14.91	15.26
CodeTrans - MT - Base	20.39	21.22	19.43	26.23	15.26	16.11
CodeTrans - MT - Large	20.18	21.87	19.38	26.08	15.00	16.23
CodeTrans - MT - TF - Small	19.77	20.04	19.36	25.55	13.70	17.24
CodeTrans - MT - TF - Base	19.77	21.12	18.86	25.79	14.24	18.62
CodeTrans - MT - TF - Large	18.94	21.42	18.77	26.20	14.19	18.83
現有最優水平	19.06	17.65	18.07	25.16	12.16	14.90