GPT-Neo-125M-code-search-pyオープンソースモデル - 無料でPythonコードのメソッド自動補完をサポート

Gpt Neo 125M Code Search Py

flax-communityによって開発

GPT-Neo-125MをファインチューニングしたPythonコード自動補完モデルで、メソッド補完タスクに特化

大規模言語モデル #Pythonコード補完 #メソッドレベル生成 #小規模パラメータ効率化

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

このモデルはCodeSearchNetチャレンジデータセットのPython言語部分でファインチューニングされた因果言語モデルで、メソッドシグネチャとドキュメント文字列に基づいてPythonメソッドを自動補完するために特別に設計されています。

モデル特徴

Pythonコード特化

Python言語に特化して最適化されており、特にメソッドレベルのコード補完に優れています

GPT-Neoアーキテクチャベース

強力なGPT-Neo-125Mモデルを基盤としており、その言語理解能力を継承しています

メソッドシグネチャ理解

メソッドシグネチャとドキュメント文字列に基づいて文脈に合ったコード実装を生成できます

モデル能力

Pythonコード生成

メソッド自動補完

コード理解

ドキュメント文字列からコードへの変換

使用事例

開発支援

IDEプラグイン

開発環境に統合してリアルタイムのコード補完提案を提供

Python開発効率の向上

コードスニペット生成

メソッドの説明に基づいて初期実装コードを生成

迅速なプロトタイプ開発

教育

プログラミング学習支援

学生が要件をコード実装に変換する方法を理解するのを支援

学習効果の向上

🚀 GPT-Code-Clippy-125M-Code-Search-Py

GPT-Code-Clippy-125M-Code-Search-Pyは、Python言語のコード自動補完に特化したモデルです。GPT-Neo-125MをCodeSearchNet Challengeデータセットでファインチューニングしています。

⚠️ 重要なお知らせ

オープンソース版のGitHub Copilotを作成する際の詳細な取り組みについては、GitHub Wikiをご参照ください。

🚀 クイックスタート

このモデルは、Python言語のメソッドを自動補完するために特化しています。以下では、モデルの詳細、トレーニングデータ、トレーニング手順、使用方法、制限事項などについて説明します。

✨ 主な機能

GPT-CC-125M-Code-Searchは、GPT-Neo-125MモデルをCodeSearchNet ChallengeデータセットのPython言語のみで因果言語モデリングを使用してファインチューニングしたモデルです。このモデルは、Python言語のメソッドを自動補完することに特化しています。

📦 インストール

このモデルをトレーニングするためのスクリプトは、こちらにあります。以下はトレーニングのコマンド例です。

./run_clm_flax.py \
    --output_dir $HOME/gpt-neo-125M-code-search-py \
    --model_name_or_path="EleutherAI/gpt-neo-125M" \
    --dataset_name code_search_net \
    --dataset_config_name="python" \
    --do_train --do_eval \
    --block_size="512" \
    --per_device_train_batch_size="32" \
    --per_device_eval_batch_size="64" \
    --preprocessing_num_workers="8" \
    --learning_rate="1.2e-4" \
    --num_train_epochs 20 \
    --warmup_steps 3000 \
    --adam_beta1="0.9" \
    --adam_beta2="0.95" \
    --weight_decay="0.1" \
    --overwrite_output_dir \
    --logging_steps="25" \
    --eval_steps="500" \
    --push_to_hub="False" \
    --report_to="all" \
    --dtype="bfloat16" \
    --skip_memory_metrics="True" \
    --save_steps="500" \
    --save_total_limit 10 \
    --report_to="wandb" \
    --run_name="gpt-neo-125M-code-search-py"

💻 使用例

基本的な使用法

このモデルは、テキスト生成パイプラインで直接使用できます。以下の例では、実行するたびに異なるシーケンスが生成されます。

from transformers import AutoModelForCausalLM, AutoTokenizer, FlaxAutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("flax-community/gpt-neo-125M-code-clippy-code-search-py")

tokenizer = AutoTokenizer.from_pretrained("flax-community/gpt-neo-125M-code-clippy-code-search-py")

prompt = """def greet(name):
  '''A function to greet user. Given a user name it should say hello'''
""" 

input_ids = tokenizer(prompt, return_tensors='pt').input_ids.to(device)

start = input_ids.size(1)

out = model.generate(input_ids, do_sample=True, max_length=50, num_beams=2, 
                     early_stopping=True, eos_token_id=tokenizer.eos_token_id, )

print(tokenizer.decode(out[0][start:]))