StarcoderPlus開源代碼生成模型 - 支持多語言編程及自然語言處理任務

首頁

Starcoderplus

由bigcode開發

StarCoderPlus 是一個強大的代碼生成模型，基於 BigCode 項目開發，支持多種編程語言和自然語言處理任務。

大型語言模型

Transformers

其他#代碼生成 #多語言編程 #機器學習推理

下載量 52

發布時間 : 5/8/2023

模型概述

StarCoderPlus 是一個多功能的大型語言模型，專注於代碼生成和文本理解任務，適用於編程輔助和多語言文本處理。

模型特點

強大的代碼生成能力

能夠根據提示生成高質量的代碼片段，支持多種編程語言。

多語言支持

不僅支持編程語言，還能處理多種自然語言任務，如中文和英文。

高性能推理

在多個基準測試中表現出色，如 HumanEval 和 MMLU。

模型能力

代碼生成

文本理解

多語言處理

常識推理

抽象推理

使用案例

編程輔助

代碼補全

根據函數簽名或註釋自動生成完整的代碼實現。

在 HumanEval 測試中達到 26.7% 的通過率@1。

教育

機器學習概念解釋

用簡潔的語言解釋複雜的機器學習概念，如梯度下降法。

🚀 StarCoderPlus

StarCoderPlus是一個強大的語言模型，可處理英文及80多種編程語言。它在英文網頁文本和GitHub代碼數據上進行訓練，能用於代碼生成等任務，其指令調優版本在實際應用中表現出色。

🚀 快速開始

你可以在 StarChat-Beta 中體驗經過指令調優的 StarCoderPlus。

✨ 主要特性

多數據源微調：基於 StarCoderBase 進行微調，使用了英文網頁數據集 RefinedWeb、StarCoderData 數據集以及經過5倍上採樣的維基百科數據集。
多語言支持：支持英文和80多種編程語言。
先進技術應用：採用 Multi Query Attention、8192 個標記的上下文窗口，並基於 Fill-in-the-Middle 目標在1.6萬億個標記上進行訓練。

屬性	詳情
模型類型	具有多查詢注意力和 Fill-in-the-Middle 目標的 GPT - 2 模型
訓練數據	英文網頁數據、GitHub代碼數據、維基百科數據
訓練步數	150k
訓練標記數	600B
精度	bfloat16
硬件	512 個 Tesla A100 GPU，訓練時間 14 天
軟件	編排：Megatron - LM；神經網絡：PyTorch；BP16（如適用）：apex
語言	英文和 80 + 種編程語言
倉庫	bigcode/Megatron - LM
項目網站	bigcode - project.org
聯繫方式	contact@bigcode - project.org

📦 安裝指南

使用以下命令安裝所需庫：

pip install -q transformers

💻 使用示例

基礎用法

# pip install -q transformers
from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "bigcode/starcoderplus"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)

inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

高級用法

Fill - in - the - middle

Fill - in - the - middle 使用特殊標記來識別輸入和輸出的前綴/中間/後綴部分：

input_text = "<fim_prefix>def print_hello_world():\n    <fim_suffix>\n    print('Hello world!')<fim_middle>"
inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

歸屬與其他要求

該模型的訓練代碼數據集僅篩選了許可型許可證的數據。不過，模型仍可能直接從數據集中生成源代碼。代碼的許可證可能要求進行歸屬聲明和/或其他特定要求，必須予以遵守。我們提供了一個搜索索引，可用於搜索預訓練數據，以確定生成的代碼來源，併為你的代碼進行適當的歸屬聲明。

📚 詳細文檔

預期用途

該模型在英文和 GitHub 代碼上進行訓練，因此它不是一個指令模型，像“編寫一個計算平方根的函數”這樣的命令效果不佳。然而，StarChat 中的指令調優版本是一個出色的助手。

歡迎在社區標籤中分享你的生成結果！

🔧 技術細節

StarCoderPlus 是在 600B 英文和代碼標記上對 StarCoderBase 進行微調的版本，而 StarCoderBase 是在 1T 代碼標記上進行預訓練的。以下是微調的詳細信息：

模型架構：具有多查詢注意力和 Fill - in - the - Middle 目標的 GPT - 2 模型。
微調步驟：150k。
微調標記數：600B。
精度：bfloat16。
硬件：使用 512 個 Tesla A100 GPU，訓練時間為 14 天。
軟件：編排使用 Megatron - LM，神經網絡使用 PyTorch，BP16（如適用）使用 apex。

📄 許可證

該模型遵循 BigCode OpenRAIL - M v1 許可協議。你可以在此處查看完整協議。

⚠️ 重要提示

該模型在網絡上的英文文本和 GitHub 代碼的混合數據上進行訓練，因此在處理非英文文本時可能會遇到限制，並且可能帶有常見的在線刻板印象和偏見。此外，生成的代碼應謹慎使用，因為它可能包含錯誤、低效或潛在的安全漏洞。如需更全面地瞭解基礎模型的代碼限制，請參考 StarCoder 論文。