code_trans_t5_base_program_synthese開源代碼生成模型 - 免費將自然語言轉為程序代碼

首頁

Code Trans T5 Base Program Synthese

由SEBIS開發

基於T5架構的Lisp風格DSL代碼生成模型，用於將自然語言描述轉換為程序代碼

大型語言模型 #Lisp代碼生成 #程序合成 #自然語言轉DSL

下載量 16

發布時間 : 3/2/2022

模型概述

該模型專門用於程序合成任務，能夠根據自然語言描述生成Lisp風格的領域專用語言(DSL)代碼。基於t5-base架構預訓練，採用SentencePiece分詞器。

模型特點

Lisp風格DSL生成

專門針對Lisp風格的領域專用語言進行優化，能夠準確理解自然語言描述並轉換為相應代碼

基於T5架構

採用強大的t5-base模型架構，具備良好的序列到序列轉換能力

程序合成專用

針對程序合成任務進行專門訓練，在代碼生成任務上表現優異

模型能力

自然語言理解

代碼生成

程序合成

Lisp風格DSL轉換

使用案例

編程輔助

算法實現

根據自然語言描述的算法邏輯生成Lisp風格實現代碼

BLEU得分最高達90.31

數學運算轉換

將數學運算描述轉換為Lisp風格DSL代碼

教育

編程教學

幫助學生理解自然語言描述與代碼實現之間的關係

🚀 CodeTrans模型用於程序合成

CodeTrans模型基於t5基礎模型架構，在受Lisp啟發的領域特定語言（DSL）編程上進行預訓練。它能根據自然語言描述生成相應的代碼，為程序合成任務提供了高效的解決方案。

🚀 快速開始

本模型可用於根據自然語言描述生成受Lisp啟發的DSL代碼。以下是使用Transformers的SummarizationPipeline調用該模型的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_program_synthese"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_program_synthese", skip_special_tokens=True),
    device=0
)

tokenized_code = "you are given an array of numbers a and a number b , compute the difference of elements in a and b"
pipeline([tokenized_code])

你可以在colab notebook中運行此示例。

✨ 主要特性

基於t5-base架構：利用了t5-base模型的強大語言理解和生成能力。
獨立的詞彙模型：擁有自己的SentencePiece詞彙模型，更適配特定的編程任務。
單任務訓練：在程序合成數據集上進行單任務訓練，專注於代碼生成能力。

📚 詳細文檔

模型描述

此CodeTrans模型基於t5-base模型構建，擁有獨立的SentencePiece詞彙模型，並在程序合成數據集上進行了單任務訓練。

預期用途與限制

該模型可根據自然語言描述的任務生成受Lisp啟發的DSL代碼。

📦 安裝指南

文檔未提及具體安裝步驟，你可參考原項目倉庫 CodeTrans 進行安裝。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_program_synthese"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_program_synthese", skip_special_tokens=True),
    device=0
)

tokenized_code = "you are given an array of numbers a and a number b , compute the difference of elements in a and b"
pipeline([tokenized_code])

🔧 技術細節

本模型基於t5-base架構，使用SentencePiece構建詞彙模型，並在程序合成數據集上進行單任務訓練，以實現根據自然語言描述生成代碼的功能。

📄 許可證

文檔未提及相關許可證信息。

📦 訓練數據

有監督的訓練任務數據集可從此處下載。

📊 評估結果

對於代碼文檔任務，不同模型在不同編程語言上的測試結果（以BLEU分數衡量）如下：

語言 / 模型	LISP
CodeTrans - ST - Small	89.43
CodeTrans - ST - Base	89.65
CodeTrans - TF - Small	90.30
CodeTrans - TF - Base	90.24
CodeTrans - TF - Large	90.21
CodeTrans - MT - Small	82.88
CodeTrans - MT - Base	86.99
CodeTrans - MT - Large	90.27
CodeTrans - MT - TF - Small	90.31
CodeTrans - MT - TF - Base	90.30
CodeTrans - MT - TF - Large	90.17
現有最優模型	85.80