CodeGen-HTML 350M开源模型 - 免费生成高质量HTML代码的实用工具

首页

Codegen 350m Html

由 alecsharpie 开发

CodeGen-HTML 350M是基于CodeGen-Multi 350M微调的自回归语言模型，专门用于HTML代码生成。

大型语言模型

Transformers

其他开源协议:Bsd-3-clause #HTML代码生成 #多语言预训练 #自回归模型

下载量 132

发布时间 : 12/1/2022

模型简介

该模型是一个用于程序合成的自回归语言模型，特别针对HTML代码生成进行了优化。它能够根据自然语言提示或部分代码生成完整的HTML代码。

模型特点

HTML代码生成

专门针对HTML代码生成进行了微调，能够生成高质量的HTML代码片段。

自回归模型

采用自回归架构，能够根据上下文预测并生成后续代码。

多语言基础

基于CodeGen-Multi 350M模型，具有多种编程语言的理解能力。

模型能力

HTML代码生成

代码补全

程序合成

使用案例

Web开发

HTML模板生成

根据简单描述生成完整的HTML页面结构。

生成符合标准的HTML代码

代码补全

根据部分HTML代码自动补全剩余部分。

提高开发效率

🚀 CodeGen (CodeGen-HTML 350M)

CodeGen是用于程序合成的自回归语言模型家族，能够解决从自然语言提示生成可执行代码的问题，为程序开发提供了高效的解决方案。

🚀 快速开始

这个模型可以使用AutoModelForCausalLM轻松加载：

基础用法

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Salesforce/codegen-350M-multi")
model = AutoModelForCausalLM.from_pretrained("alecsharpie/codegen_350m_html")

text = "<body>"

input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_ids = model.generate(input_ids, max_length=128)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

✨ 主要特性

CodeGen是一个自回归语言模型家族，用于程序合成，出自论文 A Conversational Paradigm for Program Synthesis 。
模型最初在此仓库发布，有3种预训练数据变体（NL、Multi、Mono）和4种模型大小变体（350M、2B、6B、16B）。
本仓库中的检查点是在CodeGen-Multi 350M基础上微调得到的，“Multi” 表示模型用 CodeGen-NL 350M 初始化，并在多种编程语言的数据集上进一步预训练，“350M” 指可训练参数的数量。
该模型在Hugging Face上的bigcode/the-stack数据集中的HTML代码上进行了微调。

📚 详细文档

模型描述

CodeGen是一个用于程序合成的自回归语言模型家族，出自论文：A Conversational Paradigm for Program Synthesis ，作者为Erik Nijkamp、Bo Pang、Hiroaki Hayashi、Lifu Tu、Huan Wang、Yingbo Zhou、Silvio Savarese、Caiming Xiong。模型最初在此仓库发布，有3种预训练数据变体（NL、Multi、Mono）和4种模型大小变体（350M、2B、6B、16B）。

本仓库包含的检查点是在CodeGen-Multi 350M基础上微调得到的，“Multi” 表示模型用 CodeGen-NL 350M 初始化，并在多种编程语言的数据集上进一步预训练，“350M” 指可训练参数的数量。

它在Hugging Face上的bigcode/the-stack数据集中的HTML代码上进行了微调。

训练数据

此检查点（CodeGen-Multi 350M）首先用 CodeGen-NL 350M 初始化，然后在 BigQuery 上进行预训练，这是一个来自GitHub仓库的大规模多编程语言数据集。数据包含1192亿个标记，包括C、C++、Go、Java、JavaScript和Python。

最后，它在Hugging Face上的 bigcode/the-stack 数据集中的HTML代码上进行了微调。

训练过程

初始训练

CodeGen使用交叉熵损失进行训练，以最大化顺序输入的可能性。该模型家族由Google使用多个TPU - v4 - 512进行训练，利用了数据和模型并行性。更多详细信息请参阅论文的第2.3节。

微调

我在单个40GB RAM的A100上对350M模型进行了微调，批量大小为10，输入长度为512个标记，使用了80 - 90%的RAM。

预期用途和局限性

作为一个自回归语言模型，CodeGen能够从给定的自然语言和编程语言文本中提取特征，并计算它们的可能性。然而，该模型旨在并最擅长程序合成，即根据英文提示生成可执行代码，提示应采用注释字符串的形式。该模型也可以完成部分生成的代码。

🔧 技术细节

CodeGen最初使用交叉熵损失进行训练，以最大化顺序输入的可能性。模型家族由Google使用多个TPU - v4 - 512进行训练，利用了数据和模型并行性。在微调阶段，350M模型在单个40GB RAM的A100上进行微调，批量大小为10，输入长度为512个标记，使用了80 - 90%的RAM。

📄 许可证

本项目采用BSD 3条款许可证。

📖 引用信息

@article{Nijkamp2022ACP,
  title={A Conversational Paradigm for Program Synthesis},
  author={Nijkamp, Erik and Pang, Bo and Hayashi, Hiroaki and Tu, Lifu and Wang, Huan and Zhou, Yingbo and Savarese, Silvio and Xiong, Caiming},
  journal={arXiv preprint},
  year={2022}
}

属性	详情
模型类型	自回归语言模型，用于程序合成
训练数据	首先用 CodeGen-NL 350M 初始化，然后在 BigQuery 上预训练，最后在Hugging Face上的 bigcode/the-stack 数据集中的HTML代码上微调