bitnet-b1.58-2B-4T-bf16開源大語言模型 - 免費部署，顯著提升計算效率

首頁

Bitnet B1.58 2B 4T Bf16

由microsoft開發

由微軟研究院開發的開源原生1位大語言模型，參數規模達20億，在4萬億token的語料庫上訓練而成，顯著提升計算效率。

大型語言模型

Transformers

英語開源協議:MIT #1.58位量化 #高效推理 #低能耗

下載量 2,968

發布時間 : 4/15/2025

模型概述

首個開源的、參數規模達20億的原生1位大語言模型，證明了原生1位大語言模型在保持與同類全精度模型相當性能的同時，能顯著提升計算效率（內存、能耗、延遲）。

模型特點

原生1.58位量化

權重在前向傳播時通過絕對值均值量化到三元值{-1, 0, +1}，激活通過絕對值最大值量化到8位整數。

高效計算

顯著提升計算效率（內存、能耗、延遲），內存佔用僅為0.4GB，延遲29ms（CPU解碼），能耗估算0.028J。

大規模訓練

在4萬億token的語料庫上訓練而成，證明了原生1位大語言模型的可行性。

優化架構

採用BitLinear層、旋轉位置編碼（RoPE）、平方ReLU（ReLU²）激活和subln歸一化，線性層和歸一化層無偏置項。

模型能力

文本生成

聊天

指令遵循

數學推理

常識問答

使用案例

對話系統

AI助手

作為有幫助的AI助手，進行自然語言對話。

在人類評估中得分為38.40

教育

數學問題解答

解答數學問題，如GSM8K數據集中的問題。

GSM8K得分為58.38

知識問答

常識問答

常識QA得分為71.58

專業知識問答

MMLU得分為53.17

🚀 BitNet b1.58 2B4T - 原生1位大語言模型的擴展

本倉庫包含了 BitNet b1.58 2B4T 的權重，這是由微軟研究院開發的首個在20億參數規模下的開源原生1位大語言模型（LLM）。

該模型在4萬億個標記的語料庫上進行訓練，證明了原生1位大語言模型可以達到與同規模領先的開放權重全精度模型相當的性能，同時在計算效率（內存、能源、延遲）方面具有顯著優勢。

➡️ 技術報告：BitNet b1.58 2B4T技術報告

➡️ 官方推理代碼：microsoft/BitNet (bitnet.cpp)

✨ 主要特性

首個開源的20億參數規模原生1位大語言模型。
在4萬億標記的語料庫上訓練，性能與同規模全精度模型相當。
計算效率高，在內存、能源和延遲方面具有優勢。

📦 安裝指南

使用 `transformers` 庫的依賴安裝

pip install git+https://github.com/huggingface/transformers.git@096f25ae1f501a084d8ff2dcaf25fbc2bd60eba4

💻 使用示例

基礎用法（使用 `transformers` 庫）

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "microsoft/bitnet-b1.58-2B-4T"

# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16
)

# 應用聊天模板
messages = [
    {"role": "system", "content": "You are a helpful AI assistant."},
    {"role": "user", "content": "How are you?"},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
chat_input = tokenizer(prompt, return_tensors="pt").to(model.device)

# 生成回覆
chat_outputs = model.generate(**chat_input, max_new_tokens=50)
response = tokenizer.decode(chat_outputs[0][chat_input['input_ids'].shape[-1]:], skip_special_tokens=True) # 僅解碼回覆部分
print("\nAssistant Response:", response)

使用 `bitnet.cpp`

請參考 bitnet.cpp GitHub倉庫獲取詳細的編譯步驟、使用示例和命令行選項。

📚 詳細文檔

模型變體

Hugging Face上提供了該模型權重的多個版本：

microsoft/bitnet-b1.58-2B-4T：包含為高效推理優化的1.58位壓縮權重。用於部署。
microsoft/bitnet-b1.58-2B-4T-bf16（本倉庫）：包含BF16格式的主權重。僅用於訓練或微調。
microsoft/bitnet-b1.58-2B-4T-gguf：包含GGUF格式的模型權重，與用於CPU推理的 bitnet.cpp 庫兼容。

模型詳情

屬性	詳情
架構	基於Transformer，使用 `BitLinear` 層（BitNet框架）修改。使用旋轉位置嵌入（RoPE）；在FFN層使用平方ReLU（ReLU²）激活函數；採用 `subln` 歸一化；線性或歸一化層無偏置項。
量化	原生1.58位權重和8位激活（W1.58A8）。前向傳播時，權重使用絕對值均值量化為三元值 {-1, 0, +1}；激活使用絕對值最大值量化為8位整數（按標記）。該模型是從頭開始使用此量化方案訓練的，而非訓練後量化。
參數數量	約20億
訓練標記數	4萬億
上下文長度	最大序列長度為 4096個標記。建議：對於需要非常長上下文的任務（超出預訓練長度或用於專門的長推理任務），建議在最終微調階段之前進行中間長序列適應/訓練。
訓練階段	1. 預訓練：在公共文本/代碼和合成數學數據上進行大規模訓練，使用兩階段學習率和權重衰減計劃。2. 監督微調（SFT）：在遵循指令和對話數據集上進行微調，使用求和損失聚合和特定超參數調整。3. 直接偏好優化（DPO）：使用偏好對與人類偏好對齊。
分詞器	LLaMA 3分詞器（詞彙表大小：128,256）。

評估

BitNet b1.58 2B4T與同規模領先的開放權重全精度大語言模型進行了對比評估。以下是關鍵結果（所有模型均為指令微調版本）：

基準測試	LLaMA 3.2 1B	Gemma-3 1B	Qwen2.5 1.5B	SmolLM2 1.7B	MiniCPM 2B	BitNet b1.58 2B
內存（非嵌入）	2GB	1.4GB	2.6GB	3.2GB	4.8GB	0.4GB
延遲（CPU解碼）	48ms	41ms	65ms	67ms	124ms	29ms
能源（估計）	0.258J	0.186J	0.347J	0.425J	0.649J	0.028J
訓練標記數（預訓練）	9T*	2T**	18T	11T	1.1T	4T
ARC挑戰	37.80	38.40	46.67	43.52	44.80	49.91
ARC簡單	63.17	63.13	76.01	62.92	72.14	74.79
OpenbookQA	34.80	38.80	40.80	46.00	40.20	41.60
BoolQ	64.65	74.22	78.04	75.78	80.67	80.18
HellaSwag	60.80	57.69	68.28	71.71	70.81	68.44
PIQA	74.21	71.93	76.12	76.12	76.66	77.09
WinoGrande	59.51	58.48	62.83	68.98	61.80	71.90
CommonsenseQA	58.48	42.10	76.41	63.55	71.74	71.58
TruthfulQA	43.80	38.66	46.67	39.90	41.41	45.31
TriviaQA	37.60	23.49	38.37	45.97	34.13	33.57
MMLU	45.58	39.91	60.25	49.24	51.82	53.17
HumanEval+	31.10	37.20	50.60	28.00	43.90	38.40
GSM8K	38.21	31.16	56.79	45.11	4.40	58.38
MATH-500	23.00	42.00	53.00	17.60	14.80	43.40
IFEval	62.71	66.67	50.12	57.91	36.81	53.48
MT-bench	5.43	6.40	6.12	5.50	6.57	5.85
平均	44.90	43.74	55.23	48.70	42.05	54.19

*LLaMA 3.2 1B使用剪枝和蒸餾。 **Gemma-3 1B使用蒸餾。

🔧 技術細節

效率重要提示

⚠️ 重要提示

使用標準的 transformers 庫（即使是所需的分支）使用此模型時，請不要期望在性能效率（速度、延遲或能源消耗）方面有所提升。

transformers 內部當前的執行路徑不包含利用BitNet架構優勢所需的專門、高度優化的計算內核。通過 transformers 運行模型可能會導致推理速度和能源使用與該框架內的標準全精度模型相當，甚至可能更差，無論是在CPU還是GPU上。

雖然由於量化權重，你可能會觀察到內存使用減少，但主要的計算效率優勢無法通過這種標準的 transformers 使用路徑獲得。

要實現技術論文中展示的效率優勢，你必須使用專用的C++實現：bitnet.cpp。