code_trans_t5_baseオープンソースモデル - 無料デプロイでPythonコードの要約生成とマルチタスク処理を実現

ホーム

Code Trans T5 Base Source Code Summarization Python Multitask

SEBISによって開発

T5アーキテクチャに基づく事前学習モデルで、Pythonコードの要約生成に特化し、マルチタスク処理をサポートします。

大規模言語モデル #Pythonコード要約 #マルチタスク事前学習 #T5アーキテクチャ最適化

ダウンロード数 57

リリース時間 : 3/2/2022

モデル概要

このモデルはPython関数の機能説明を生成するために使用され、生のコードとトークン化後のコードの処理をサポートします。トークン化されたコードの処理結果がより優れています。

モデル特徴

マルチタスク学習フレームワーク

13の監督タスクと7つの非監督データセットで学習を行い、モデルの汎化能力を強化します。

トークン化最適化

トークン化されたPython関数の処理に最適で、同時に生のコードの処理もサポートします。

高性能アーキテクチャ

t5-baseモデルに基づき、独立したSentencePiece語彙モデルを備えています。

モデル能力

Pythonコード要約生成

マルチタスクコード処理

ソースコード分析

使用事例

ソフトウェア開発

関数ドキュメント自動生成

Python関数の機能説明ドキュメントを自動生成します。

BLEUスコアが13.37（Python言語）

コード理解支援

開発者が複雑なコードセグメントの機能を迅速に理解するのを支援します。

🚀 ソースコード要約Python用CodeTransモデル

このモデルは、t5 baseモデルアーキテクチャを使用してPythonプログラミング言語で事前学習されたものです。最初はthisリポジトリで公開されました。このモデルはトークン化されたPythonコード関数で学習されており、トークン化されたPython関数で最も良い性能を発揮します。

🚀 クイックスタート

このモデルは、Python関数の説明を生成するために使用できます。以下に、このモデルを使用してPython関数のドキュメントを生成する方法を示します。

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_source_code_summarization_python_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_source_code_summarization_python_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = '''with open ( CODE_STRING , CODE_STRING ) as in_file : buf = in_file . readlines ( )  with open ( CODE_STRING , CODE_STRING ) as out_file : for line in buf :          if line ==   " ; Include this text   " :              line = line +   " Include below  "          out_file . write ( line ) '''
pipeline([tokenized_code])

この例は、colabノートブックで実行できます。

✨ 主な機能

このCodeTransモデルは、t5-baseモデルに基づいています。独自のSentencePiece語彙モデルを持っています。ソフトウェア開発ドメインの13の教師ありタスクと7つの教師なしデータセットでマルチタスク学習を行っています。
このモデルは、Python関数の説明を生成するために使用できるか、他のPythonコードタスクで微調整することができます。解析されていない、トークン化されていないPythonコードでも使用できます。ただし、Pythonコードがトークン化されている場合、性能は向上するはずです。

📦 インストール

READMEにインストール手順に関する具体的な内容が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_source_code_summarization_python_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_source_code_summarization_python_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = '''with open ( CODE_STRING , CODE_STRING ) as in_file : buf = in_file . readlines ( )  with open ( CODE_STRING , CODE_STRING ) as out_file : for line in buf :          if line ==   " ; Include this text   " :              line = line +   " Include below  "          out_file . write ( line ) '''
pipeline([tokenized_code])

高度な使用法

READMEに高度な使用法に関する具体的な内容が記載されていないため、このサブセクションは省略されます。

📚 ドキュメント

モデルの説明

このCodeTransモデルは、t5-baseモデルに基づいています。独自のSentencePiece語彙モデルを持っています。ソフトウェア開発ドメインの13の教師ありタスクと7つの教師なしデータセットでマルチタスク学習を行っています。

想定される用途と制限

このモデルは、Python関数の説明を生成するために使用できるか、他のPythonコードタスクで微調整することができます。解析されていない、トークン化されていないPythonコードでも使用できます。ただし、Pythonコードがトークン化されている場合、性能は向上するはずです。

トレーニングデータ

教師ありトレーニングタスクのデータセットは、このリンクからダウンロードできます。

トレーニング手順

マルチタスク事前学習

このモデルは、単一のTPU Pod V3 - 8で合計260,000ステップ学習されました。シーケンス長は512（バッチサイズ4096）を使用しています。総計で約220Mのパラメータを持ち、エンコーダ - デコーダアーキテクチャを使用して学習されました。事前学習には、逆平方根学習率スケジュールを持つAdaFactorオプティマイザが使用されました。

評価結果

ソースコード要約タスクにおいて、異なるモデルが異なるプログラミング言語で次の結果（BLEUスコア）を達成しています。

言語 / モデル	Python	SQL	C#
CodeTrans-ST-Small	8.45	17.55	19.74
CodeTrans-ST-Base	9.12	15.00	18.65
CodeTrans-TF-Small	10.06	17.71	20.40
CodeTrans-TF-Base	10.94	17.66	21.12
CodeTrans-TF-Large	12.41	18.40	21.43
CodeTrans-MT-Small	13.11	19.15	22.39
CodeTrans-MT-Base	13.37	19.24	23.20
CodeTrans-MT-Large	13.24	19.40	23.57
CodeTrans-MT-TF-Small	12.10	18.25	22.03
CodeTrans-MT-TF-Base	10.64	16.91	21.40
CodeTrans-MT-TF-Large	12.14	19.98	21.10
CODE-NN	--	18.40	20.50