🚀 CodeTransモデル(API推薦生成用)
このモデルは、t5 smallモデルアーキテクチャを使用したAPI推薦生成用の事前学習済みモデルです。初めて公開されたのは、このリポジトリです。
🚀 クイックスタート
このモデルは、JavaプログラミングタスクのAPI使用方法を生成するために使用できます。以下に、TransformersのSummarizationPipelineを使用してJava関数のドキュメントを生成する方法を示します。
from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline
pipeline = SummarizationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_small_api_generation_multitask"),
tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_small_api_generation_multitask", skip_special_tokens=True),
device=0
)
tokenized_code = "parse the uses licence node of this package , if any , and returns the license definition if theres"
pipeline([tokenized_code])
この例をcolabノートブックで実行してください。
✨ 主な機能
- このCodeTransモデルは、
t5-small
モデルに基づいています。独自のSentencePiece語彙モデルを持っています。
- ソフトウェア開発分野の13の教師ありタスクと7つの教師なしデータセットを使用したマルチタスク学習を行っています。
📦 インストール
このモデルを使用するには、Transformersライブラリをインストールする必要があります。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline
pipeline = SummarizationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_small_api_generation_multitask"),
tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_small_api_generation_multitask", skip_special_tokens=True),
device=0
)
tokenized_code = "parse the uses licence node of this package , if any , and returns the license definition if theres"
pipeline([tokenized_code])
📚 ドキュメント
学習データ
教師あり学習タスクのデータセットは、このリンクからダウンロードできます。
学習手順
マルチタスク事前学習
このモデルは、シーケンス長512(バッチサイズ4096)で、合計500,000ステップ、単一のTPU Pod V3-8で学習されました。
総計約220Mのパラメータを持ち、エンコーダ-デコーダアーキテクチャを使用して学習されました。
事前学習には、逆平方根学習率スケジュールを持つAdaFactorオプティマイザが使用されました。
評価結果
コードドキュメントタスクにおいて、異なるモデルが以下の結果を達成しています(BLEUスコア)。
言語 / モデル |
Java |
CodeTrans-ST-Small |
68.71 |
CodeTrans-ST-Base |
70.45 |
CodeTrans-TF-Small |
68.90 |
CodeTrans-TF-Base |
72.11 |
CodeTrans-TF-Large |
73.26 |
CodeTrans-MT-Small |
58.43 |
CodeTrans-MT-Base |
67.97 |
CodeTrans-MT-Large |
72.29 |
CodeTrans-MT-TF-Small |
69.29 |
CodeTrans-MT-TF-Base |
72.89 |
CodeTrans-MT-TF-Large |
73.39 |
最先端技術 |
54.42 |
作成者: Ahmed Elnaggar | LinkedIn と Wei Ding | LinkedIn