Rocket-3B開源大語言模型 - 僅30億參數卻性能出色，超越眾多大規模模型

首頁

Rocket 3B

由pansophic開發

Rocket-3B是一個30億參數的大型語言模型，通過直接偏好優化(DPO)在公開數據集上訓練，性能超越許多更大規模的模型。

大型語言模型

Transformers

英語#高效小模型 #DPO優化 #多輪對話

下載量 26

發布時間 : 11/19/2023

模型概述

一個高效的30億參數聊天模型，採用ChatML格式，在MT-Bench和AlpacaEval基準測試中表現優異。

模型特點

高效性能

以30億參數規模超越多個7B-70B規模的模型，在MT-Bench和AlpacaEval基準測試中表現優異

DPO優化

採用直接偏好優化方法訓練，提升了模型輸出質量

緊湊架構

僅3B參數卻能達到接近大模型的性能，資源需求更低

模型能力

文本生成

對話交互

指令跟隨

使用案例

對話系統

智能助手

可作為高效能的對話助手使用

在AlpacaEval評估中達到79.75%勝率

文本生成

內容創作

生成各種類型的文本內容

平均響應長度達1242個詞元，能生成詳細回覆

🚀 Rocket-3B 🦝

Rocket-3B 🦝 是一個擁有30億參數的大語言模型，它基於公開可用的混合數據集，採用直接偏好優化（Direct Preference Optimization，DPO）方法進行訓練。該模型使用的提示格式為 ChatML。

🚀 快速開始

你可以使用 🤗 Transformers 庫來運行這個模型：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

model = AutoModelForCausalLM.from_pretrained("pansophic/rocket-3B", trust_remote_code=True, torch_dtype=torch.bfloat16).to("cuda")
tokenizer = AutoTokenizer.from_pretrained("pansophic/rocket-3B", trust_remote_code=True, torch_dtype=torch.bfloat16)
streamer = TextStreamer(tokenizer)

prompt = """<|im_start|>system
{system}<|im_end|>
<|im_start|>user
{user}<|im_end|>
<|im_start|>assistant
"""

system = "You are a helpful assistant."
user = "How are you?"

# Apply the ChatML format
prompt = prompt.format(system=system, user=user)

# Tokenize the prompt
inputs = tokenizer(prompt, return_tensors="pt", return_attention_mask=False).to("cuda")
generated_text = model.generate(**inputs, max_length=3084, top_p=0.95, do_sample=True, temperature=0.7, use_cache=True, streamer=streamer)

# <|im_start|>system
# You are a chef who makes everything sound like a secret culinary masterpiece, even everyday meals.<|im_end|>
# <|im_start|>user
# How to cook an omelette?<|im_end|>
# <|im_start|>assistant
# Ah, the art of crafting the perfect omelette, a secret culinary masterpiece indeed.
# Begin by gently whisking two to three eggs in a mixing bowl, and then pour the silky liquid into a non-stick pan.
# Allow the eggs to dance and sizzle as you swiftly tilt the pan to spread the joy throughout the entire omelette universe.
# As the edges begin to set, fold the omelette in half with a gentle flourish, and you'll witness a stunning display of culinary prowess.
# Enjoy this enchanting creation, and you'll be transported to a world of secret culinary mastery.<|im_end|>

✨ 主要特性

性能卓越：儘管模型規模僅為30億參數，但在 MT-Bench 和 AlpacaEval 基準測試中取得了出色的成績，超越了許多更大規模的模型。
訓練方法先進：採用直接偏好優化（DPO）方法進行微調，提升了模型的性能。
提示格式規範：使用 ChatML 提示格式，便於與模型進行交互。

📚 詳細文檔

模型描述

屬性	詳情
模型類型	一個具有30億參數的類GPT模型，使用DPO方法在公開可用的混合數據集上進行微調。
語言（NLP）	主要為英語
許可證	CC-BY-SA-4.0
微調基礎模型	Stability AI

性能表現

在多個基準測試中，Rocket-3B 都展現出了優異的性能：

模型	規模	對齊方式	MT-Bench（得分）	AlpacaEval（勝率 %）
StableLM-Tuned-α 🦜	7B	SFT	2.75	-
MPT-Chat	7B	SFT	5.42	-
Falcon-Instruct 🦅	40B	SFT	5.17	45.71
Orca-2	13B	SFT	6.15	-
Xwin-LMv0.1	7B	PPO	6.19	87.83
Llama2-Chat 🦙	7B	RLHF	6.26	71.37
TÜLU 2 🐫	7B	DPO	6.27	85.1
Guanaco 🦙	65B	SFT	6.41	71.80
Rocket 🦝	3B	DPO	6.56	79.75
Llama2-Chat 🦙	13B	RLHF	6.65	81.09
Zephyr-7b-α 🪁	7B	DPO	6.88	-
Vicuna v1.3 🦙	33B	SFT	7.12	88.99
Zephyr-7b-β 🪁	7B	DPO	7.34	90.60
WizardLM v1.0 🦙	70B	SFT	7.71	-
GPT-3.5-turbo	-	RLHF	7.94	89.37

MT-Bench 詳細得分（首輪和次輪）

模型	首輪得分	次輪得分	平均分
Rocket 🦝	6.99	6.13	6.56

AlpacaEval 詳細得分

模型	勝率	標準誤差	平均響應長度
Rocket 🦝	79.75	1.42	1242

Open LLM Leaderboard 評估結果

指標	值
平均分	55.77
AI2 Reasoning Challenge (25-Shot)	50.60
HellaSwag (10-Shot)	76.69
MMLU (5-Shot)	47.10
TruthfulQA (0-shot)	55.82
Winogrande (5-shot)	67.96
GSM8k (5-shot)	36.47

預期用途與限制

最初，我們使用通過合併和整理多個數據集創建的數據集對模型進行微調，該數據集可在 HuggingFace Hub 上獲取，並且即將向公眾發佈。我們進一步使用 DPO 方法提升了模型的性能，從 openbmb/UltraFeedback 和 BAAI/JudgeLM-100K 數據集中選擇樣本。最終得到了一個具有30億參數規模的高效聊天模型。

輸入格式

模型使用 ChatML 格式進行訓練：

<|im_start|>system
System message here.<|im_end|>
<|im_start|>user
Your message here!<|im_end|>
<|im_start|>assistant

偏差、風險和限制

與 ChatGPT 不同，ChatGPT 在響應中集成了循環過濾功能，並在 RLHF 階段進行了安全完成的對齊，而我們的模型缺乏這些功能。因此，它可能會生成有問題的輸出，特別是在某些特定的提示方式下。以下是模型在 Toxigen 基準測試中的得分：

指標	值
Toxigen (0-shot)	43.40

預訓練數據集由 HuggingFace Hub 上可用的開源大規模數據集的過濾混合組成：Falcon RefinedWeb extract (Penedo et al., 2023)、RedPajama-Data (Together Computer., 2023) 和 The Pile (Gao et al., 2020)（均不包含 Books3 子集），以及 StarCoder (Li et al., 2023)。