🚀 Bonsai:小型三元權重語言模型
Bonsai是一款由deepgrove訓練的小型三元權重語言模型,擁有5億參數。它採用了Llama架構和Mistral分詞器,對線性層進行了修改以支持三元權重。該模型主要使用DCLM - Pro和Fineweb - Edu進行訓練,在不到50億個標記的情況下完成訓練,開創了高效的新範式。
🚀 快速開始
Bonsai可以通過Huggingface Transformers庫輕鬆使用。不過,目前所有操作均以16位精度執行,團隊正在努力將模型設計與自定義混合精度內核集成。以下是一個快速使用示例:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("deepgrove/Bonsai", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("deepgrove/Bonsai", trust_remote_code=True)
text = "What is the capital of France?"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
需要注意的是,Bonsai未經過指令微調,強烈建議在下游任務中使用前對模型進行微調。
✨ 主要特性
- 參數規模小:僅有5億參數,屬於小型語言模型。
- 三元權重:採用三元權重,在存儲和計算上可能具有更高的效率。
- 高效訓練:在不到50億個標記的情況下完成訓練。
📚 詳細文檔
模型詳情
模型描述
Bonsai是由deepgrove訓練的小型5億參數三元權重語言模型。它遵循Danube 3採用Llama架構和Mistral分詞器,並對線性層進行修改以支持三元權重。該模型主要使用DCLM - Pro和Fineweb - Edu進行訓練。
屬性 |
詳情 |
開發者 |
deepgrove |
語言(NLP) |
英語 |
許可證 |
Apache 2 |
代碼倉庫 |
https://github.com/deepgrove - ai/Bonsai |
論文 |
https://github.com/deepgrove - ai/Bonsai/tree/main/paper/Bonsai.pdf |
評估
Bonsai在同類模型中取得了有競爭力的性能,是首批達到此水平的三元模型之一。以下是評估結果,如需更詳細的結果以及與其他三元模型的比較,請參閱上述鏈接的論文。除MMLU使用lighteval的完形填空形式外,所有基準測試均使用lm - eval。
模型 |
ARC - c |
ARC - e |
HS. |
OBQA |
PiQA |
Wino. |
MMLU |
平均 |
MobiLlama 0.5B |
26.62 |
46.68 |
51.66 |
30.00 |
71.65 |
54.50 |
28.61 |
44.25 |
Qwen 2 0.5B |
28.84 |
50.29 |
49.12 |
33.00 |
69.26 |
56.99 |
31.78 |
45.61 |
MobileLLM 600M |
29.01 |
56.65 |
55.35 |
34.00 |
71.65 |
59.75 |
31.40 |
48.13 |
Qwen 2.5 0.5B |
32.25 |
58.29 |
52.18 |
35.40 |
69.91 |
56.12 |
33.40 |
48.22 |
Bonsai |
33.36 |
57.95 |
48.04 |
34.00 |
70.24 |
54.85 |
30.28 |
46.96 |
📄 許可證
本項目採用Apache 2許可證。