🚀 Rocket-3B 🦝
Rocket-3B 🦝 是一個擁有30億參數的大語言模型,它基於公開可用的混合數據集,採用 直接偏好優化(Direct Preference Optimization,DPO) 方法進行訓練。該模型使用的提示格式為 ChatML。
🚀 快速開始
你可以使用 🤗 Transformers 庫來運行這個模型:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
model = AutoModelForCausalLM.from_pretrained("pansophic/rocket-3B", trust_remote_code=True, torch_dtype=torch.bfloat16).to("cuda")
tokenizer = AutoTokenizer.from_pretrained("pansophic/rocket-3B", trust_remote_code=True, torch_dtype=torch.bfloat16)
streamer = TextStreamer(tokenizer)
prompt = """<|im_start|>system
{system}<|im_end|>
<|im_start|>user
{user}<|im_end|>
<|im_start|>assistant
"""
system = "You are a helpful assistant."
user = "How are you?"
prompt = prompt.format(system=system, user=user)
inputs = tokenizer(prompt, return_tensors="pt", return_attention_mask=False).to("cuda")
generated_text = model.generate(**inputs, max_length=3084, top_p=0.95, do_sample=True, temperature=0.7, use_cache=True, streamer=streamer)
✨ 主要特性
📚 詳細文檔
模型描述
屬性 |
詳情 |
模型類型 |
一個具有30億參數的類GPT模型,使用DPO方法在公開可用的混合數據集上進行微調。 |
語言(NLP) |
主要為英語 |
許可證 |
CC-BY-SA-4.0 |
微調基礎模型 |
Stability AI |
性能表現
在多個基準測試中,Rocket-3B 都展現出了優異的性能:
模型 |
規模 |
對齊方式 |
MT-Bench(得分) |
AlpacaEval(勝率 %) |
StableLM-Tuned-α 🦜 |
7B |
SFT |
2.75 |
- |
MPT-Chat |
7B |
SFT |
5.42 |
- |
Falcon-Instruct 🦅 |
40B |
SFT |
5.17 |
45.71 |
Orca-2 |
13B |
SFT |
6.15 |
- |
Xwin-LMv0.1 |
7B |
PPO |
6.19 |
87.83 |
Llama2-Chat 🦙 |
7B |
RLHF |
6.26 |
71.37 |
TÜLU 2 🐫 |
7B |
DPO |
6.27 |
85.1 |
Guanaco 🦙 |
65B |
SFT |
6.41 |
71.80 |
Rocket 🦝 |
3B |
DPO |
6.56 |
79.75 |
Llama2-Chat 🦙 |
13B |
RLHF |
6.65 |
81.09 |
Zephyr-7b-α 🪁 |
7B |
DPO |
6.88 |
- |
Vicuna v1.3 🦙 |
33B |
SFT |
7.12 |
88.99 |
Zephyr-7b-β 🪁 |
7B |
DPO |
7.34 |
90.60 |
WizardLM v1.0 🦙 |
70B |
SFT |
7.71 |
- |
GPT-3.5-turbo |
- |
RLHF |
7.94 |
89.37 |
MT-Bench 詳細得分(首輪和次輪)
模型 |
首輪得分 |
次輪得分 |
平均分 |
Rocket 🦝 |
6.99 |
6.13 |
6.56 |
AlpacaEval 詳細得分
模型 |
勝率 |
標準誤差 |
平均響應長度 |
Rocket 🦝 |
79.75 |
1.42 |
1242 |
指標 |
值 |
平均分 |
55.77 |
AI2 Reasoning Challenge (25-Shot) |
50.60 |
HellaSwag (10-Shot) |
76.69 |
MMLU (5-Shot) |
47.10 |
TruthfulQA (0-shot) |
55.82 |
Winogrande (5-shot) |
67.96 |
GSM8k (5-shot) |
36.47 |
預期用途與限制
最初,我們使用通過合併和整理多個數據集創建的數據集對模型進行微調,該數據集可在 HuggingFace Hub 上獲取,並且即將向公眾發佈。我們進一步使用 DPO 方法提升了模型的性能,從 openbmb/UltraFeedback 和 BAAI/JudgeLM-100K 數據集中選擇樣本。最終得到了一個具有30億參數規模的高效聊天模型。
輸入格式
模型使用 ChatML 格式進行訓練:
<|im_start|>system
System message here.<|im_end|>
<|im_start|>user
Your message here!<|im_end|>
<|im_start|>assistant
偏差、風險和限制
與 ChatGPT 不同,ChatGPT 在響應中集成了循環過濾功能,並在 RLHF 階段進行了安全完成的對齊,而我們的模型缺乏這些功能。因此,它可能會生成有問題的輸出,特別是在某些特定的提示方式下。以下是模型在 Toxigen 基準測試中的得分:
指標 |
值 |
Toxigen (0-shot) |
43.40 |
預訓練數據集由 HuggingFace Hub 上可用的開源大規模數據集的過濾混合組成:Falcon RefinedWeb extract (Penedo et al., 2023)、RedPajama-Data (Together Computer., 2023) 和 The Pile (Gao et al., 2020)(均不包含 Books3 子集),以及 StarCoder (Li et al., 2023)。
📄 許可證
本模型採用 CC-BY-SA-4.0 許可證。