Refact-1_6B-fim開源代碼生成模型 - 免費部署，多語言編程表現出色

首頁

Refact 1 6B Fim

由smallcloudai開發

Refact-1.6B 是一個專注於代碼生成的1.6B參數規模的大語言模型，在多種編程語言上表現出色。

大型語言模型

Transformers

支持多種語言開源協議:Openrail #多語言代碼生成 #高通過率代碼補全 #開源代碼優化

下載量 9,703

發布時間 : 8/29/2023

模型概述

該模型主要用於代碼生成任務，支持多種編程語言，在HumanEval等基準測試中表現優異。

模型特點

多語言代碼生成

支持Python、JavaScript、Java、C++等多種編程語言的代碼生成

高性能

在HumanEval基準測試中表現出色，Python通過率@1達到32%

廣泛訓練數據

使用了包括GitHub代碼、技術論壇、維基百科等多種來源的訓練數據

模型能力

代碼自動補全

函數生成

多語言代碼轉換

代碼解釋

使用案例

開發輔助

代碼自動補全

在IDE中提供智能代碼補全建議

提高開發效率

代碼生成

根據函數簽名或註釋生成完整代碼實現

HumanEval Python通過率@1達32%

教育

編程學習輔助

為學習者提供代碼示例和解釋

🚀 Refact-1.6B

Refact-1.6B 模型基於博客文章中的方法訓練而來，現已正式發佈🎉。該模型在生成數據上進行微調後，性能超越了 Replit 3b、Stability Code 3b 等眾多模型，甚至幾乎超越了規模大其十倍的 StarCoder 模型。它不僅智能快速，適合在 IDE 中進行代碼補全，還支持多語言，並且可以作為聊天模型使用。

📦 安裝指南

若要使用該模型，你可以下載 Refact 插件立即開始使用，也可以使用開源 Docker 容器自行託管模型。

💻 使用示例

基礎用法

Fill-in-the-middle 會使用特殊標記來識別輸入和輸出的前綴、中間和後綴部分：

# pip install -q transformers
from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "smallcloudai/Refact-1_6B-fim"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, trust_remote_code=True).to(device)

prompt = '<fim_prefix>def print_hello_world():\n    """<fim_suffix>\n    print("Hello world!")<fim_middle>'

inputs = tokenizer.encode(prompt, return_tensors="pt").to(device)
outputs = model.generate(inputs, max_length=100, temperature=0.2)
print("-"*80)
print(tokenizer.decode(outputs[0]))

高級用法

同一模型也可作為聊天模型使用（實驗性）：

prompt_template = "<empty_output>SYSTEM {system}\n" \
                  "<empty_output>USER {query}\n" \
                  "<empty_output>ASSISTANT"
prompt = prompt_template.format(system="You are a programming assistant",
                                query="How do I sort a list in Python?")

📚 詳細文檔

模型性能對比

模型	規模	HumanEval pass@1	HumanEval pass@10
DeciCoder-1b	1b	19.1%
Refact-1.6-fim	1.6b	32.0%	53.0%
StableCode	3b	20.2%	33.8%
ReplitCode v1	3b	21.9%
CodeGen2.5-multi	7b	28.4%	47.5%
CodeLlama	7b	33.5%	59.6%
StarCoder	15b	33.6%

聊天模式性能對比

使用指令跟隨（聊天）格式的 HumanEval 結果，與僅專門用於聊天的模型對比：

模型	規模	pass@1	pass@10
Refact-1.6-fim	1.6b	38.4%	55.6%
StableCode-instruct	3b	26.9%	36.2%
OctoGeeX	6b	44.7%
CodeLlama-instruct	7b	34.8%	64.3%
CodeGen2.5-instruct	7b	36.2%	60.87
CodeLlama-instruct	13b	42.7%	71.6%
StarChat-β	15b	33.5%
OctoCoder	15b	46.2%

🔧 技術細節

模型架構

基於 ALiBi 的注意力機制
使用 LayerNorm 而非 RMSNorm
採用 Multi Query Attention

此外，還使用了 LiON、Flash Attention 和 Early Dropout 等技術。

預訓練

基礎模型使用了僅包含寬鬆許可代碼的自有數據集和開放文本數據集。成功的關鍵在於過濾：

僅使用英文文本
僅涉及計算機科學相關主題
進行了大量去重處理

文本與代碼的比例為 50:50，模型訓練了 1.2T 個標記。基礎模型未發佈，因為其 Fill-in-the-Middle (FIM) 功能容易重複，實際用途有限。若你仍需要，可在 Discord 上給我們留言。

微調

測試發現，僅 15% 經過質量過濾的開放代碼指令跟隨數據集，就能提升幾乎所有指標。為改進 FIM，還觀察常見失敗模式，並基於 The Stack dedup v1.1 準備了合成數據集。最終模型經過多次嘗試，以使其在代碼補全方面表現出色，並在廣泛的指標上表現良好，最佳嘗試使用了 40B 個標記。

模型統計信息

屬性	詳情
模型類型	LLAMA 類模型，採用多查詢注意力機制
目標任務	Fill-in-the-Middle、聊天
標記上下文	4096
預訓練標記	1.2T
微調標記	40B
精度	bfloat16
GPU	64 個 NVIDIA A5000
訓練時間	28 天