code_trans_t5_base開源代碼摘要模型 - 免費生成Python代碼功能摘要

首頁

Code Trans T5 Base Source Code Summarization Python

由SEBIS開發

基於T5架構的預訓練模型，專門用於生成Python代碼的功能摘要

文本生成 #Python代碼摘要 #T5架構優化 #函數級文檔生成

下載量 27

發布時間 : 3/2/2022

模型概述

該模型針對Python編程語言設計，能夠自動生成Python函數的功能描述，支持對原始代碼或分詞後代碼的處理

模型特點

專用Python代碼處理

專門針對Python編程語言優化，在分詞後的Python代碼上表現最佳

單任務訓練

專注於源代碼摘要生成任務，在該任務上達到最優性能

獨立詞彙模型

使用獨立的SentencePiece詞彙模型，提高對編程語言特殊符號的處理能力

模型能力

Python代碼摘要生成

源代碼功能描述

代碼文檔自動生成

使用案例

代碼文檔化

函數文檔自動生成

為Python函數自動生成功能描述文檔

在測試集上達到13.37 BLEU評分（Base模型）

代碼理解輔助

代碼審查輔助

快速生成代碼片段的功能摘要，輔助代碼審查

🚀 CodeTrans模型：用於Python源代碼摘要

CodeTrans模型基於t5基礎模型架構，在Python編程語言上進行預訓練。它能為Python代碼生成描述，助力開發者理解代碼邏輯。該模型首次發佈於此倉庫，在標記化的Python代碼函數上進行訓練，處理標記化的Python函數時效果最佳。

🚀 快速開始

此CodeTrans模型基於 t5-base 模型構建，擁有自己的SentencePiece詞彙模型，在Python源代碼摘要數據集上進行單任務訓練。以下是使用Transformers的 SummarizationPipeline 調用該模型生成Python函數文檔的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_source_code_summarization_python"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_source_code_summarization_python", skip_special_tokens=True),
    device=0
)

tokenized_code = '''with open ( CODE_STRING , CODE_STRING ) as in_file : buf = in_file . readlines ( )  with open ( CODE_STRING , CODE_STRING ) as out_file : for line in buf :          if line ==   " ; Include this text   " :              line = line +   " Include below  "          out_file . write ( line ) '''
pipeline([tokenized_code])

你可以在 colab notebook 中運行此示例。

✨ 主要特性

功能用途廣泛：可用於生成Python函數的描述，也能在其他Python代碼任務上進行微調。
適應性強：能處理未解析和未標記化的Python代碼，對標記化的Python代碼處理效果更佳。

📚 詳細文檔

模型描述

該CodeTrans模型基於 t5-base 模型，具備獨立的SentencePiece詞彙模型，採用單任務訓練方式在Python源代碼摘要數據集上進行訓練。

預期用途和限制

此模型可用於生成Python函數的描述，或在其他Python代碼任務上進行微調。它能處理未解析和未標記化的Python代碼，但對標記化的Python代碼處理性能更佳。

訓練數據

有監督的訓練任務數據集可從此處下載。

評估結果

對於源代碼摘要任務，不同模型在不同編程語言上取得了以下BLEU分數結果：

語言 / 模型	Python	SQL	C#
CodeTrans-ST-Small	8.45	17.55	19.74
CodeTrans-ST-Base	9.12	15.00	18.65
CodeTrans-TF-Small	10.06	17.71	20.40
CodeTrans-TF-Base	10.94	17.66	21.12
CodeTrans-TF-Large	12.41	18.40	21.43
CodeTrans-MT-Small	13.11	19.15	22.39
CodeTrans-MT-Base	13.37	19.24	23.20
CodeTrans-MT-Large	13.24	19.40	23.57
CodeTrans-MT-TF-Small	12.10	18.25	22.03
CodeTrans-MT-TF-Base	10.64	16.91	21.40
CodeTrans-MT-TF-Large	12.14	19.98	21.10
CODE-NN	--	18.40	20.50