CodeGen-HTML 350M開源模型 - 免費生成高質量HTML代碼的實用工具

首頁

Codegen 350m Html

由alecsharpie開發

CodeGen-HTML 350M是基於CodeGen-Multi 350M微調的自迴歸語言模型，專門用於HTML代碼生成。

大型語言模型

Transformers

其他開源協議:Bsd-3-clause #HTML代碼生成 #多語言預訓練 #自迴歸模型

下載量 132

發布時間 : 12/1/2022

模型概述

該模型是一個用於程序合成的自迴歸語言模型，特別針對HTML代碼生成進行了優化。它能夠根據自然語言提示或部分代碼生成完整的HTML代碼。

模型特點

HTML代碼生成

專門針對HTML代碼生成進行了微調，能夠生成高質量的HTML代碼片段。

自迴歸模型

採用自迴歸架構，能夠根據上下文預測並生成後續代碼。

多語言基礎

基於CodeGen-Multi 350M模型，具有多種編程語言的理解能力。

模型能力

HTML代碼生成

代碼補全

程序合成

使用案例

Web開發

HTML模板生成

根據簡單描述生成完整的HTML頁面結構。

生成符合標準的HTML代碼

代碼補全

根據部分HTML代碼自動補全剩餘部分。

提高開發效率

🚀 CodeGen (CodeGen-HTML 350M)

CodeGen是用於程序合成的自迴歸語言模型家族，能夠解決從自然語言提示生成可執行代碼的問題，為程序開發提供了高效的解決方案。

🚀 快速開始

這個模型可以使用AutoModelForCausalLM輕鬆加載：

基礎用法

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Salesforce/codegen-350M-multi")
model = AutoModelForCausalLM.from_pretrained("alecsharpie/codegen_350m_html")

text = "<body>"

input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_ids = model.generate(input_ids, max_length=128)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

✨ 主要特性

CodeGen是一個自迴歸語言模型家族，用於程序合成，出自論文 A Conversational Paradigm for Program Synthesis 。
模型最初在此倉庫發佈，有3種預訓練數據變體（NL、Multi、Mono）和4種模型大小變體（350M、2B、6B、16B）。
本倉庫中的檢查點是在CodeGen-Multi 350M基礎上微調得到的，“Multi” 表示模型用 CodeGen-NL 350M 初始化，並在多種編程語言的數據集上進一步預訓練，“350M” 指可訓練參數的數量。
該模型在Hugging Face上的bigcode/the-stack數據集中的HTML代碼上進行了微調。

📚 詳細文檔

模型描述

CodeGen是一個用於程序合成的自迴歸語言模型家族，出自論文：A Conversational Paradigm for Program Synthesis ，作者為Erik Nijkamp、Bo Pang、Hiroaki Hayashi、Lifu Tu、Huan Wang、Yingbo Zhou、Silvio Savarese、Caiming Xiong。模型最初在此倉庫發佈，有3種預訓練數據變體（NL、Multi、Mono）和4種模型大小變體（350M、2B、6B、16B）。

本倉庫包含的檢查點是在CodeGen-Multi 350M基礎上微調得到的，“Multi” 表示模型用 CodeGen-NL 350M 初始化，並在多種編程語言的數據集上進一步預訓練，“350M” 指可訓練參數的數量。

它在Hugging Face上的bigcode/the-stack數據集中的HTML代碼上進行了微調。

訓練數據

此檢查點（CodeGen-Multi 350M）首先用 CodeGen-NL 350M 初始化，然後在 BigQuery 上進行預訓練，這是一個來自GitHub倉庫的大規模多編程語言數據集。數據包含1192億個標記，包括C、C++、Go、Java、JavaScript和Python。

最後，它在Hugging Face上的 bigcode/the-stack 數據集中的HTML代碼上進行了微調。

訓練過程

初始訓練

CodeGen使用交叉熵損失進行訓練，以最大化順序輸入的可能性。該模型家族由Google使用多個TPU - v4 - 512進行訓練，利用了數據和模型並行性。更多詳細信息請參閱論文的第2.3節。

微調

我在單個40GB RAM的A100上對350M模型進行了微調，批量大小為10，輸入長度為512個標記，使用了80 - 90%的RAM。

預期用途和侷限性

作為一個自迴歸語言模型，CodeGen能夠從給定的自然語言和編程語言文本中提取特徵，並計算它們的可能性。然而，該模型旨在並最擅長程序合成，即根據英文提示生成可執行代碼，提示應採用註釋字符串的形式。該模型也可以完成部分生成的代碼。

🔧 技術細節

CodeGen最初使用交叉熵損失進行訓練，以最大化順序輸入的可能性。模型家族由Google使用多個TPU - v4 - 512進行訓練，利用了數據和模型並行性。在微調階段，350M模型在單個40GB RAM的A100上進行微調，批量大小為10，輸入長度為512個標記，使用了80 - 90%的RAM。

📄 許可證

本項目採用BSD 3條款許可證。

📖 引用信息

@article{Nijkamp2022ACP,
  title={A Conversational Paradigm for Program Synthesis},
  author={Nijkamp, Erik and Pang, Bo and Hayashi, Hiroaki and Tu, Lifu and Wang, Huan and Zhou, Yingbo and Savarese, Silvio and Xiong, Caiming},
  journal={arXiv preprint},
  year={2022}
}

屬性	詳情
模型類型	自迴歸語言模型，用於程序合成
訓練數據	首先用 CodeGen-NL 350M 初始化，然後在 BigQuery 上預訓練，最後在Hugging Face上的 bigcode/the-stack 數據集中的HTML代碼上微調