bitnet-b1.58-2B-4T開源大語言模型 - 高性能低計算成本，免費暢享

首頁

Bitnet B1.58 2B 4T

由microsoft開發

微軟研究院開發的首個開源20億參數規模原生1比特大語言模型，在4萬億token語料上訓練完成，證明了原生1比特大語言模型在保持與同規模全精度開源模型相當性能的同時，能顯著提升計算效率。

大型語言模型

Transformers

英語開源協議:MIT #1.58比特量化 #高效推理 #低能耗LLM

下載量 35.87k

發布時間 : 4/15/2025

模型概述

BitNet b1.58 2B4T是一個原生1.58比特的大語言模型，採用三元值{-1, 0, +1}權重和8比特激活，專為高效計算設計。該模型在保持與同規模全精度模型相當性能的同時，顯著降低了內存佔用和能耗。

模型特點

原生1.58比特量化

模型直接採用1.58比特權重和8比特激活方案從頭訓練，而非訓練後量化

高效計算

相比同規模全精度模型，顯著降低內存佔用、能耗和延遲

大規模訓練

在4萬億token的多樣化語料上進行訓練，包括文本、代碼和數學數據

優化架構

採用旋轉位置編碼、平方ReLU激活和subln歸一化等優化技術

模型能力

文本生成

對話系統

指令跟隨

代碼生成

數學推理

使用案例

對話系統

AI助手

構建高效能、低資源消耗的對話助手

在人類評估中獲得38.4分

數學推理

數學問題求解

解決GSM8K數學問題

達到58.38%的準確率

常識推理

常識問答

回答常識性問題

在常識QA上達到71.58分

🚀 BitNet b1.58 2B4T - 擴展原生1位大語言模型

本倉庫包含 BitNet b1.58 2B4T 的權重文件。這是由微軟研究院開發的首個開源、原生1位大語言模型（LLM），參數規模達20億。

該模型在4萬億個標記的語料庫上進行訓練，證明了原生1位大語言模型可以達到與同規模領先的開放權重、全精度模型相當的性能，同時在計算效率（內存、能源、延遲）方面具有顯著優勢。

➡️ 技術報告：BitNet b1.58 2B4T技術報告

➡️ 官方推理代碼：microsoft/BitNet (bitnet.cpp)

✨ 主要特性

低精度量化：採用原生1.58位權重和8位激活值（W1.58A8），在保證性能的同時大幅降低計算資源需求。
高效架構：基於Transformer架構，使用BitLinear層進行優化，提升計算效率。
多階段訓練：經過預訓練、有監督微調（SFT）和直接偏好優化（DPO）等多個階段，使模型更好地符合人類偏好。

📦 安裝指南

要求

pip install git+https://github.com/huggingface/transformers.git@096f25ae1f501a084d8ff2dcaf25fbc2bd60eba4

💻 使用示例

基礎用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "microsoft/bitnet-b1.58-2B-4T"

# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16
)

# 應用聊天模板
messages = [
    {"role": "system", "content": "You are a helpful AI assistant."},
    {"role": "user", "content": "How are you?"},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
chat_input = tokenizer(prompt, return_tensors="pt").to(model.device)

# 生成回覆
chat_outputs = model.generate(**chat_input, max_new_tokens=50)
response = tokenizer.decode(chat_outputs[0][chat_input['input_ids'].shape[-1]:], skip_special_tokens=True) # 僅解碼回覆部分
print("\nAssistant Response:", response)

📚 詳細文檔

模型變體

Hugging Face上提供了該模型權重的多個版本：

microsoft/bitnet-b1.58-2B-4T（本倉庫）：包含為高效推理優化的1.58位打包權重。用於部署。
microsoft/bitnet-b1.58-2B-4T-bf16：包含BF16格式的主權重。僅用於訓練或微調。
microsoft/bitnet-b1.58-2B-4T-gguf：包含GGUF格式的模型權重，與用於CPU推理的bitnet.cpp庫兼容。

模型詳情

屬性	詳情
架構	基於Transformer，使用`BitLinear`層（BitNet框架）進行修改。使用旋轉位置嵌入（RoPE）；在FFN層使用平方ReLU（ReLU²）激活函數；採用`subln`歸一化；線性層和歸一化層無偏置項。
量化	原生1.58位權重和8位激活值（W1.58A8）。前向傳播時，權重使用絕對值均值量化為三元值{-1, 0, +1}；激活值使用絕對值最大值量化（按標記）為8位整數。關鍵的是，該模型是使用此量化方案從頭開始訓練的，而非訓練後量化。
參數	約20億
訓練標記	4萬億
上下文長度	最大序列長度為4096個標記。建議：對於需要非常長上下文的任務（超出預訓練長度或用於專門的長推理任務），建議在最終微調階段之前進行中間長序列適應/訓練。
訓練階段	1. 預訓練：使用兩階段學習率和權重衰減策略，在公共文本/代碼和合成數學數據上進行大規模訓練。2. 有監督微調（SFT）：使用求和損失聚合和特定超參數調整，在遵循指令和對話數據集上進行微調。3. 直接偏好優化（DPO）：使用偏好對與人類偏好對齊。
分詞器	LLaMA 3分詞器（詞彙表大小：128,256）

如何使用（使用`bitnet.cpp`）

請參考 bitnet.cpp GitHub倉庫獲取詳細的編譯步驟、使用示例和命令行選項。

評估

BitNet b1.58 2B4T與同規模領先的開放權重全精度大語言模型進行了對比評估。以下是關鍵結果（所有模型均為指令調優版本）：

基準測試	LLaMA 3.2 1B	Gemma-3 1B	Qwen2.5 1.5B	SmolLM2 1.7B	MiniCPM 2B	BitNet b1.58 2B
內存（非嵌入）	2GB	1.4GB	2.6GB	3.2GB	4.8GB	0.4GB
延遲（CPU解碼）	48ms	41ms	65ms	67ms	124ms	29ms
能源（估計）	0.258J	0.186J	0.347J	0.425J	0.649J	0.028J
訓練標記（預訓練）	9T*	2T**	18T	11T	1.1T	4T
ARC挑戰	37.80	38.40	46.67	43.52	44.80	49.91
ARC簡單	63.17	63.13	76.01	62.92	72.14	74.79
OpenbookQA	34.80	38.80	40.80	46.00	40.20	41.60
BoolQ	64.65	74.22	78.04	75.78	80.67	80.18
HellaSwag	60.80	57.69	68.28	71.71	70.81	68.44
PIQA	74.21	71.93	76.12	76.12	76.66	77.09
WinoGrande	59.51	58.48	62.83	68.98	61.80	71.90
CommonsenseQA	58.48	42.10	76.41	63.55	71.74	71.58
TruthfulQA	43.80	38.66	46.67	39.90	41.41	45.31
TriviaQA	37.60	23.49	38.37	45.97	34.13	33.57
MMLU	45.58	39.91	60.25	49.24	51.82	53.17
HumanEval+	31.10	37.20	50.60	28.00	43.90	38.40
GSM8K	38.21	31.16	56.79	45.11	4.40	58.38
MATH-500	23.00	42.00	53.00	17.60	14.80	43.40
IFEval	62.71	66.67	50.12	57.91	36.81	53.48
MT-bench	5.43	6.40	6.12	5.50	6.57	5.85
平均	44.90	43.74	55.23	48.70	42.05	54.19

*LLaMA 3.2 1B使用剪枝和蒸餾技術。

**Gemma-3 1B使用蒸餾技術。

重要提示和使用建議

⚠️ 重要提示

使用標準的transformers庫（即使使用所需的分支）使用此模型時，請不要期望在性能效率（速度、延遲或能源消耗方面）有所提升。當前transformers內的執行路徑不包含利用BitNet架構優勢所需的專門、高度優化的計算內核。通過transformers運行模型可能會導致推理速度和能源使用與該框架內的標準全精度模型相當，甚至可能更差。雖然由於量化權重，您可能會觀察到內存使用減少，但通過這種標準transformers使用路徑無法獲得主要的計算效率優勢。要實現技術論文中展示的效率優勢，您必須使用專用的C++實現：bitnet.cpp。