code_trans_t5_smallオープンソースPythonコード要約生成モデル - マルチタスク学習をサポートし、無料でデプロイ可能

ホーム

Code Trans T5 Small Source Code Summarization Python Multitask Finetune

SEBISによって開発

T5小型アーキテクチャに基づくPythonコード要約生成モデルで、マルチタスク学習をサポートします。

テキスト生成 #Pythonコードの要約 #マルチタスク事前学習 #T5小型アーキテクチャ

ダウンロード数 143

リリース時間 : 3/2/2022

モデル概要

このモデルは、Pythonコード断片の要約記述を生成するために特別に設計されており、マルチタスク事前学習とPythonコード要約タスクの微調整を経ています。

モデル特徴

マルチタスク事前学習

モデルは13の教師付きタスクと7つの教師なしデータセットで事前学習されており、広範な知識ベースを持っています。

Pythonコードの最適化

Pythonプログラミング言語に特化して最適化されており、Pythonコード要約タスクで優れた性能を発揮します。

未分かち書きコードのサポート

解析されていない未分かち書きのPythonコードを直接処理できますが、分かち書きされたコードに対してはより良い結果が得られます。

モデル能力

Pythonコード要約生成

コード機能記述

マルチタスク学習

使用事例

コードドキュメント生成

関数ドキュメントの自動生成

Python関数の機能記述ドキュメントを自動生成します。

BLEUスコアが13.37（CodeTrans - MT - Baseベース）

コード理解支援

コードレビュー支援

開発者が複雑なコードの機能を迅速に理解するのを支援します。

🚀 ソースコード要約Python用CodeTransモデル

t5 smallモデルアーキテクチャを使用して、プログラミング言語Pythonで事前学習されたモデルです。このモデルは、このリポジトリで最初に公開されました。このモデルは、トークン化されたPythonコード関数で学習されており、トークン化されたPython関数で最も良い性能を発揮します。

🚀 クイックスタート

このモデルは、Python関数の説明を生成するために使用することができます。以下に、TransformersのSummarizationPipelineを使用してPython関数のドキュメントを生成する方法を示します。

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_small_source_code_summarization_python_multitask_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_small_source_code_summarization_python_multitask_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = '''with open ( CODE_STRING , CODE_STRING ) as in_file : buf = in_file . readlines ( )  with open ( CODE_STRING , CODE_STRING ) as out_file : for line in buf :          if line ==   " ; Include this text   " :              line = line +   " Include below  "          out_file . write ( line ) '''
pipeline([tokenized_code])

この例は、colabノートブックで実行できます。

✨ 主な機能

このCodeTransモデルは、t5-smallモデルに基づいています。独自のSentencePiece語彙モデルを持っています。
ソフトウェア開発ドメインの13の教師ありタスクと7つの教師なしデータセットでマルチタスク学習を行い、その後、Pythonコードスニペットのソースコード要約タスクでファインチューニングされています。

📦 インストール

このモデルを使用するには、transformersライブラリをインストールする必要があります。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_small_source_code_summarization_python_multitask_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_small_source_code_summarization_python_multitask_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = '''with open ( CODE_STRING , CODE_STRING ) as in_file : buf = in_file . readlines ( )  with open ( CODE_STRING , CODE_STRING ) as out_file : for line in buf :          if line ==   " ; Include this text   " :              line = line +   " Include below  "          out_file . write ( line ) '''
pipeline([tokenized_code])

📚 ドキュメント

モデルの説明

このCodeTransモデルは、t5-smallモデルに基づいています。独自のSentencePiece語彙モデルを持っています。ソフトウェア開発ドメインの13の教師ありタスクと7つの教師なしデータセットでマルチタスク学習を行い、その後、Pythonコードスニペットのソースコード要約タスクでファインチューニングされています。

想定される用途と制限

このモデルは、Python関数の説明を生成するために使用することができ、また、他のPythonコードタスクでファインチューニングすることもできます。解析されていない、トークン化されていないPythonコードでも使用できますが、Pythonコードがトークン化されている場合、性能は向上します。

🔧 技術詳細

学習データ

教師あり学習タスクのデータセットは、このリンクからダウンロードできます。

学習手順

マルチタスク事前学習

このモデルは、単一のTPU Pod V3 - 8で合計500,000ステップ、シーケンス長512（バッチサイズ4096）を使用して学習されました。総計で約220Mのパラメータを持ち、エンコーダ - デコーダアーキテクチャを使用して学習されました。事前学習には、逆平方根学習率スケジュールを持つAdaFactorオプティマイザが使用されました。

ファインチューニング

このモデルは、その後、単一のTPU Pod V2 - 8で合計600ステップ、シーケンス長512（バッチサイズ256）を使用し、Pythonコードのみを含むデータセットでファインチューニングされました。

評価結果

ソースコード要約タスクにおいて、異なるモデルが異なるプログラミング言語で次の結果（BLEUスコア）を達成しています。

言語 / モデル	Python	SQL	C#
CodeTrans - ST - Small	8.45	17.55	19.74
CodeTrans - ST - Base	9.12	15.00	18.65
CodeTrans - TF - Small	10.06	17.71	20.40
CodeTrans - TF - Base	10.94	17.66	21.12
CodeTrans - TF - Large	12.41	18.40	21.43
CodeTrans - MT - Small	13.11	19.15	22.39
CodeTrans - MT - Base	13.37	19.24	23.20
CodeTrans - MT - Large	13.24	19.40	23.57
CodeTrans - MT - TF - Small	12.10	18.25	22.03
CodeTrans - MT - TF - Base	10.64	16.91	21.40
CodeTrans - MT - TF - Large	12.14	19.98	21.10
CODE - NN	--	18.40	20.50