codegen-6B-mono開源代碼生成模型 - 免費助力Python程序開發合成

首頁

Codegen 6B Mono

由Salesforce開發

CodeGen是用於程序合成的自迴歸語言模型系列，CodeGen-Mono 6B是基於Python編程語言數據集進一步預訓練的6B參數模型。

大型語言模型

Transformers

開源協議:Bsd-3-clause #Python代碼生成 #自迴歸編程 #大參數模型

下載量 600

發布時間 : 4/13/2022

模型概述

CodeGen-Mono 6B是一個專注於程序合成的語言模型，能夠根據自然語言提示生成可執行代碼，特別適合Python編程任務。

模型特點

Python專用預訓練

在BigPython數據集（717億Python標記）上進行了專門預訓練，優化了Python代碼生成能力

自迴歸生成

採用自迴歸方式生成代碼，能夠根據部分代碼或自然語言提示補全完整程序

大規模訓練

使用Google TPU-v4-512集群進行大規模並行訓練

模型能力

Python代碼生成

代碼補全

程序合成

使用案例

軟件開發

根據註釋生成函數

根據自然語言註釋描述自動生成完整的Python函數實現

在HumanEval和MTPB等基準測試上表現良好

代碼補全

根據部分代碼片段自動補全完整實現

🚀 CodeGen (CodeGen-Mono 6B)

CodeGen是一系列用於程序合成的自迴歸語言模型，能有效解決程序代碼生成的問題，為開發者提供便捷的代碼生成方案。

🚀 快速開始

此模型可使用AutoModelForCausalLM輕鬆加載：

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/codegen-6B-mono")
model = AutoModelForCausalLM.from_pretrained("Salesforce/codegen-6B-mono")

text = "def hello_world():"
input_ids = tokenizer(text, return_tensors="pt").input_ids

generated_ids = model.generate(input_ids, max_length=128)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

✨ 主要特性

CodeGen是用於程序合成的自迴歸語言模型家族，源自論文 A Conversational Paradigm for Program Synthesis。
模型最初在此倉庫發佈，有3種預訓練數據變體（NL、Multi、Mono）和4種模型大小變體（350M、2B、6B、16B）。
本倉庫包含的檢查點在論文中表示為CodeGen-Mono 6B，“Mono” 表示該模型用 CodeGen-Multi 6B 初始化，並在Python編程語言數據集上進一步預訓練；“6B” 指可訓練參數的數量。
作為自迴歸語言模型，CodeGen能夠從給定的自然語言和編程語言文本中提取特徵，並計算其可能性。該模型專為程序合成設計，即根據英文提示生成可執行代碼，提示應採用註釋字符串的形式，也能完成部分生成的代碼。

📚 詳細文檔

模型描述

CodeGen是一系列用於程序合成的自迴歸語言模型，來自Erik Nijkamp、Bo Pang、Hiroaki Hayashi、Lifu Tu、Huan Wang、Yingbo Zhou、Silvio Savarese、Caiming Xiong撰寫的論文 A Conversational Paradigm for Program Synthesis。模型最初在此倉庫發佈，有3種預訓練數據變體（NL、Multi、Mono）和4種模型大小變體（350M、2B、6B、16B）。

本倉庫包含的檢查點在論文中表示為CodeGen-Mono 6B，“Mono” 表示該模型用 CodeGen-Multi 6B 初始化，並在Python編程語言數據集上進一步預訓練；“6B” 指可訓練參數的數量。

訓練數據

此檢查點（CodeGen-Mono 6B）首先用 CodeGen-Multi 6B 初始化，然後在BigPython數據集上進行預訓練。該數據包含717億個Python編程語言的標記。更多詳細信息請參閱論文的第2.1節。

訓練過程

CodeGen使用交叉熵損失進行訓練，以最大化序列輸入的可能性。該系列模型由Google使用多個TPU - v4 - 512進行訓練，利用了數據和模型並行性。更多詳細信息請參閱論文的第2.3節。

評估結果

我們在兩個代碼生成基準測試（HumanEval和MTPB）上評估了我們的模型。更多詳細信息請參閱論文。

預期用途和限制

作為自迴歸語言模型，CodeGen能夠從給定的自然語言和編程語言文本中提取特徵，並計算其可能性。然而，該模型專為程序合成設計，即根據英文提示生成可執行代碼，提示應採用註釋字符串的形式，也能完成部分生成的代碼。

倫理考量

本次發佈僅用於支持學術論文的研究目的。我們的模型、數據集和代碼並非專門為所有下游用途設計或評估。我們強烈建議用戶在部署此模型之前評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮人工智能的常見侷限性，遵守適用法律，並在選擇用例時採用最佳實踐，特別是在錯誤或濫用可能嚴重影響人們生活、權利或安全的高風險場景中。有關用例的進一步指導，請參閱我們的AUP和AI AUP。

BibTeX引用和引用信息

@article{Nijkamp2022ACP,
  title={A Conversational Paradigm for Program Synthesis},
  author={Nijkamp, Erik and Pang, Bo and Hayashi, Hiroaki and Tu, Lifu and Wang, Huan and Zhou, Yingbo and Savarese, Silvio and Xiong, Caiming},
  journal={arXiv preprint},
  year={2022}
}