gpt-neo-125M-code-search-py開源模型 - 免費支持Python代碼方法自動補全

首頁

Gpt Neo 125M Code Search Py

由flax-community開發

基於GPT-Neo-125M微調的Python代碼自動補全模型，專注於方法補全任務

大型語言模型 #Python代碼補全 #方法級生成 #小參數高效

下載量 17

發布時間 : 3/2/2022

模型概述

該模型是在CodeSearchNet挑戰數據集的Python語言部分上進行微調的因果語言模型，專門用於根據方法簽名和文檔字符串自動補全Python方法。

模型特點

Python代碼專注

專門針對Python語言進行優化，特別擅長方法級別的代碼補全

基於GPT-Neo架構

建立在強大的GPT-Neo-125M模型基礎上，繼承了其語言理解能力

方法簽名理解

能夠根據方法簽名和文檔字符串生成符合上下文的代碼實現

模型能力

Python代碼生成

方法自動補全

代碼理解

文檔字符串到代碼轉換

使用案例

開發輔助

IDE插件

集成到開發環境中提供即時代碼補全建議

提高Python開發效率

代碼片段生成

根據方法描述生成初步實現代碼

快速原型開發

教育

編程學習輔助

幫助學生理解如何將需求轉化為代碼實現

增強學習效果

🚀 GPT-Code-Clippy-125M-Code-Search-Py

GPT-Code-Clippy-125M-Code-Search-Py 是一個專門用於 Python 代碼自動補全的模型，基於 GPT-Neo-125M 模型微調而來，能有效提升 Python 代碼編寫的效率。

⚠️ 重要提示

請參考我們新的 GitHub Wiki，其中詳細記錄了我們創建 GitHub Copilot 開源版本的工作。

📚 詳細文檔

模型描述

GPT-CC-125M-Code-Search 是一個 GPT-Neo-125M 模型，它在 CodeSearchNet Challenge 數據集上僅針對 Python 語言使用因果語言建模進行了微調。該模型專門用於自動補全 Python 語言中的方法。

訓練數據

CodeSearchNet Challenge 數據集。

訓練過程

用於訓練此模型的訓練腳本可以在這裡找到。

./run_clm_flax.py \
    --output_dir $HOME/gpt-neo-125M-code-search-py \
    --model_name_or_path="EleutherAI/gpt-neo-125M" \
    --dataset_name code_search_net \
    --dataset_config_name="python" \
    --do_train --do_eval \
    --block_size="512" \
    --per_device_train_batch_size="32" \
    --per_device_eval_batch_size="64" \
    --preprocessing_num_workers="8" \
    --learning_rate="1.2e-4" \
    --num_train_epochs 20 \
    --warmup_steps 3000 \
    --adam_beta1="0.9" \
    --adam_beta2="0.95" \
    --weight_decay="0.1" \
    --overwrite_output_dir \
    --logging_steps="25" \
    --eval_steps="500" \
    --push_to_hub="False" \
    --report_to="all" \
    --dtype="bfloat16" \
    --skip_memory_metrics="True" \
    --save_steps="500" \
    --save_total_limit 10 \
    --report_to="wandb" \
    --run_name="gpt-neo-125M-code-search-py"

預期用途和限制

使用方法

你可以直接使用文本生成管道來使用此模型。此示例每次運行時都會生成不同的序列：

from transformers import AutoModelForCausalLM, AutoTokenizer, FlaxAutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("flax-community/gpt-neo-125M-code-clippy-code-search-py")

tokenizer = AutoTokenizer.from_pretrained("flax-community/gpt-neo-125M-code-clippy-code-search-py")

prompt = """def greet(name):
  '''A function to greet user. Given a user name it should say hello'''
""" 

input_ids = tokenizer(prompt, return_tensors='pt').input_ids.to(device)

start = input_ids.size(1)

out = model.generate(input_ids, do_sample=True, max_length=50, num_beams=2, 

                     early_stopping=True, eos_token_id=tokenizer.eos_token_id, )

print(tokenizer.decode(out[0][start:]))