Bonsai開源語言模型 - 小型高效，助力多種文本處理場景應用

首頁

Bonsai

由deepgrove開發

盆景是一個擁有5億參數的小型三值權重語言模型，採用Llama架構和Mistral分詞器，訓練使用的標記數不到50億。

大型語言模型

Transformers

#三值權重 #小型語言模型 #高效訓練

下載量 113

發布時間 : 3/21/2025

模型概述

盆景是由deepgrove訓練的小型三值權重語言模型，主要使用DCLM-Pro和Fineweb-Edu進行訓練，標誌著效率的新範式。

模型特點

三值權重設計

修改了線性層以支持三值權重，提高了模型的效率。

高效訓練

訓練使用的標記數不到50億，標誌著效率的新範式。

小型模型

僅5億參數，適合資源有限的環境。

模型能力

文本生成

語言理解

使用案例

教育

知識問答

用於回答簡單的知識性問題，如'法國的首都是哪裡？'

研究

模型效率研究

用於研究三值權重模型在效率和性能上的表現。

🚀 Bonsai：小型三元權重語言模型

Bonsai是一款由deepgrove訓練的小型三元權重語言模型，擁有5億參數。它採用了Llama架構和Mistral分詞器，對線性層進行了修改以支持三元權重。該模型主要使用DCLM - Pro和Fineweb - Edu進行訓練，在不到50億個標記的情況下完成訓練，開創了高效的新範式。

🚀 快速開始

Bonsai可以通過Huggingface Transformers庫輕鬆使用。不過，目前所有操作均以16位精度執行，團隊正在努力將模型設計與自定義混合精度內核集成。以下是一個快速使用示例：

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("deepgrove/Bonsai", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("deepgrove/Bonsai", trust_remote_code=True)
text = "What is the capital of France?"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

需要注意的是，Bonsai未經過指令微調，強烈建議在下游任務中使用前對模型進行微調。

✨ 主要特性

參數規模小：僅有5億參數，屬於小型語言模型。
三元權重：採用三元權重，在存儲和計算上可能具有更高的效率。
高效訓練：在不到50億個標記的情況下完成訓練。

📚 詳細文檔

模型詳情

模型描述

Bonsai是由deepgrove訓練的小型5億參數三元權重語言模型。它遵循Danube 3採用Llama架構和Mistral分詞器，並對線性層進行修改以支持三元權重。該模型主要使用DCLM - Pro和Fineweb - Edu進行訓練。

屬性	詳情
開發者	deepgrove
語言（NLP）	英語
許可證	Apache 2
代碼倉庫	https://github.com/deepgrove - ai/Bonsai
論文	https://github.com/deepgrove - ai/Bonsai/tree/main/paper/Bonsai.pdf

評估

Bonsai在同類模型中取得了有競爭力的性能，是首批達到此水平的三元模型之一。以下是評估結果，如需更詳細的結果以及與其他三元模型的比較，請參閱上述鏈接的論文。除MMLU使用lighteval的完形填空形式外，所有基準測試均使用lm - eval。

模型	ARC - c	ARC - e	HS.	OBQA	PiQA	Wino.	MMLU	平均
MobiLlama 0.5B	26.62	46.68	51.66	30.00	71.65	54.50	28.61	44.25
Qwen 2 0.5B	28.84	50.29	49.12	33.00	69.26	56.99	31.78	45.61
MobileLLM 600M	29.01	56.65	55.35	34.00	71.65	59.75	31.40	48.13
Qwen 2.5 0.5B	32.25	58.29	52.18	35.40	69.91	56.12	33.40	48.22
Bonsai	33.36	57.95	48.04	34.00	70.24	54.85	30.28	46.96