code_trans_t5_base_program_synthese开源代码生成模型 - 免费将自然语言转为程序代码

首页

Code Trans T5 Base Program Synthese

由 SEBIS 开发

基于T5架构的Lisp风格DSL代码生成模型，用于将自然语言描述转换为程序代码

大型语言模型 #Lisp代码生成 #程序合成 #自然语言转DSL

下载量 16

发布时间 : 3/2/2022

模型简介

该模型专门用于程序合成任务，能够根据自然语言描述生成Lisp风格的领域专用语言(DSL)代码。基于t5-base架构预训练，采用SentencePiece分词器。

模型特点

Lisp风格DSL生成

专门针对Lisp风格的领域专用语言进行优化，能够准确理解自然语言描述并转换为相应代码

基于T5架构

采用强大的t5-base模型架构，具备良好的序列到序列转换能力

程序合成专用

针对程序合成任务进行专门训练，在代码生成任务上表现优异

模型能力

自然语言理解

代码生成

程序合成

Lisp风格DSL转换

使用案例

编程辅助

算法实现

根据自然语言描述的算法逻辑生成Lisp风格实现代码

BLEU得分最高达90.31

数学运算转换

将数学运算描述转换为Lisp风格DSL代码

教育

编程教学

帮助学生理解自然语言描述与代码实现之间的关系

🚀 CodeTrans模型用于程序合成

CodeTrans模型基于t5基础模型架构，在受Lisp启发的领域特定语言（DSL）编程上进行预训练。它能根据自然语言描述生成相应的代码，为程序合成任务提供了高效的解决方案。

🚀 快速开始

本模型可用于根据自然语言描述生成受Lisp启发的DSL代码。以下是使用Transformers的SummarizationPipeline调用该模型的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_program_synthese"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_program_synthese", skip_special_tokens=True),
    device=0
)

tokenized_code = "you are given an array of numbers a and a number b , compute the difference of elements in a and b"
pipeline([tokenized_code])

你可以在colab notebook中运行此示例。

✨ 主要特性

基于t5-base架构：利用了t5-base模型的强大语言理解和生成能力。
独立的词汇模型：拥有自己的SentencePiece词汇模型，更适配特定的编程任务。
单任务训练：在程序合成数据集上进行单任务训练，专注于代码生成能力。

📚 详细文档

模型描述

此CodeTrans模型基于t5-base模型构建，拥有独立的SentencePiece词汇模型，并在程序合成数据集上进行了单任务训练。

预期用途与限制

该模型可根据自然语言描述的任务生成受Lisp启发的DSL代码。

📦 安装指南

文档未提及具体安装步骤，你可参考原项目仓库 CodeTrans 进行安装。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_program_synthese"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_program_synthese", skip_special_tokens=True),
    device=0
)

tokenized_code = "you are given an array of numbers a and a number b , compute the difference of elements in a and b"
pipeline([tokenized_code])

🔧 技术细节

本模型基于t5-base架构，使用SentencePiece构建词汇模型，并在程序合成数据集上进行单任务训练，以实现根据自然语言描述生成代码的功能。

📄 许可证

文档未提及相关许可证信息。

📦 训练数据

有监督的训练任务数据集可从此处下载。

📊 评估结果

对于代码文档任务，不同模型在不同编程语言上的测试结果（以BLEU分数衡量）如下：

语言 / 模型	LISP
CodeTrans - ST - Small	89.43
CodeTrans - ST - Base	89.65
CodeTrans - TF - Small	90.30
CodeTrans - TF - Base	90.24
CodeTrans - TF - Large	90.21
CodeTrans - MT - Small	82.88
CodeTrans - MT - Base	86.99
CodeTrans - MT - Large	90.27
CodeTrans - MT - TF - Small	90.31
CodeTrans - MT - TF - Base	90.30
CodeTrans - MT - TF - Large	90.17
现有最优模型	85.80