bitnet-b1.58-2B-4T-bf16开源大语言模型 - 免费部署，显著提升计算效率

首页

Bitnet B1.58 2B 4T Bf16

由 microsoft 开发

由微软研究院开发的开源原生1位大语言模型，参数规模达20亿，在4万亿token的语料库上训练而成，显著提升计算效率。

大型语言模型

Transformers

英语开源协议:MIT #1.58位量化 #高效推理 #低能耗

下载量 2,968

发布时间 : 4/15/2025

模型简介

首个开源的、参数规模达20亿的原生1位大语言模型，证明了原生1位大语言模型在保持与同类全精度模型相当性能的同时，能显著提升计算效率（内存、能耗、延迟）。

模型特点

原生1.58位量化

权重在前向传播时通过绝对值均值量化到三元值{-1, 0, +1}，激活通过绝对值最大值量化到8位整数。

高效计算

显著提升计算效率（内存、能耗、延迟），内存占用仅为0.4GB，延迟29ms（CPU解码），能耗估算0.028J。

大规模训练

在4万亿token的语料库上训练而成，证明了原生1位大语言模型的可行性。

优化架构

采用BitLinear层、旋转位置编码（RoPE）、平方ReLU（ReLU²）激活和subln归一化，线性层和归一化层无偏置项。

模型能力

文本生成

聊天

指令遵循

数学推理

常识问答

使用案例

对话系统

AI助手

作为有帮助的AI助手，进行自然语言对话。

在人类评估中得分为38.40

教育

数学问题解答

解答数学问题，如GSM8K数据集中的问题。

GSM8K得分为58.38

知识问答

常识问答

常识QA得分为71.58

专业知识问答

MMLU得分为53.17

🚀 BitNet b1.58 2B4T - 原生1位大语言模型的扩展

本仓库包含了 BitNet b1.58 2B4T 的权重，这是由微软研究院开发的首个在20亿参数规模下的开源原生1位大语言模型（LLM）。

该模型在4万亿个标记的语料库上进行训练，证明了原生1位大语言模型可以达到与同规模领先的开放权重全精度模型相当的性能，同时在计算效率（内存、能源、延迟）方面具有显著优势。

➡️ 技术报告：BitNet b1.58 2B4T技术报告

➡️ 官方推理代码：microsoft/BitNet (bitnet.cpp)

✨ 主要特性

首个开源的20亿参数规模原生1位大语言模型。
在4万亿标记的语料库上训练，性能与同规模全精度模型相当。
计算效率高，在内存、能源和延迟方面具有优势。

📦 安装指南

使用 `transformers` 库的依赖安装

pip install git+https://github.com/huggingface/transformers.git@096f25ae1f501a084d8ff2dcaf25fbc2bd60eba4

💻 使用示例

基础用法（使用 `transformers` 库）

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "microsoft/bitnet-b1.58-2B-4T"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16
)

# 应用聊天模板
messages = [
    {"role": "system", "content": "You are a helpful AI assistant."},
    {"role": "user", "content": "How are you?"},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
chat_input = tokenizer(prompt, return_tensors="pt").to(model.device)

# 生成回复
chat_outputs = model.generate(**chat_input, max_new_tokens=50)
response = tokenizer.decode(chat_outputs[0][chat_input['input_ids'].shape[-1]:], skip_special_tokens=True) # 仅解码回复部分
print("\nAssistant Response:", response)

使用 `bitnet.cpp`

请参考 bitnet.cpp GitHub仓库获取详细的编译步骤、使用示例和命令行选项。

📚 详细文档

模型变体

Hugging Face上提供了该模型权重的多个版本：

microsoft/bitnet-b1.58-2B-4T：包含为高效推理优化的1.58位压缩权重。用于部署。
microsoft/bitnet-b1.58-2B-4T-bf16（本仓库）：包含BF16格式的主权重。仅用于训练或微调。
microsoft/bitnet-b1.58-2B-4T-gguf：包含GGUF格式的模型权重，与用于CPU推理的 bitnet.cpp 库兼容。

模型详情

属性	详情
架构	基于Transformer，使用 `BitLinear` 层（BitNet框架）修改。使用旋转位置嵌入（RoPE）；在FFN层使用平方ReLU（ReLU²）激活函数；采用 `subln` 归一化；线性或归一化层无偏置项。
量化	原生1.58位权重和8位激活（W1.58A8）。前向传播时，权重使用绝对值均值量化为三元值 {-1, 0, +1}；激活使用绝对值最大值量化为8位整数（按标记）。该模型是从头开始使用此量化方案训练的，而非训练后量化。
参数数量	约20亿
训练标记数	4万亿
上下文长度	最大序列长度为 4096个标记。建议：对于需要非常长上下文的任务（超出预训练长度或用于专门的长推理任务），建议在最终微调阶段之前进行中间长序列适应/训练。
训练阶段	1. 预训练：在公共文本/代码和合成数学数据上进行大规模训练，使用两阶段学习率和权重衰减计划。2. 监督微调（SFT）：在遵循指令和对话数据集上进行微调，使用求和损失聚合和特定超参数调整。3. 直接偏好优化（DPO）：使用偏好对与人类偏好对齐。
分词器	LLaMA 3分词器（词汇表大小：128,256）。

评估

BitNet b1.58 2B4T与同规模领先的开放权重全精度大语言模型进行了对比评估。以下是关键结果（所有模型均为指令微调版本）：

基准测试	LLaMA 3.2 1B	Gemma-3 1B	Qwen2.5 1.5B	SmolLM2 1.7B	MiniCPM 2B	BitNet b1.58 2B
内存（非嵌入）	2GB	1.4GB	2.6GB	3.2GB	4.8GB	0.4GB
延迟（CPU解码）	48ms	41ms	65ms	67ms	124ms	29ms
能源（估计）	0.258J	0.186J	0.347J	0.425J	0.649J	0.028J
训练标记数（预训练）	9T*	2T**	18T	11T	1.1T	4T
ARC挑战	37.80	38.40	46.67	43.52	44.80	49.91
ARC简单	63.17	63.13	76.01	62.92	72.14	74.79
OpenbookQA	34.80	38.80	40.80	46.00	40.20	41.60
BoolQ	64.65	74.22	78.04	75.78	80.67	80.18
HellaSwag	60.80	57.69	68.28	71.71	70.81	68.44
PIQA	74.21	71.93	76.12	76.12	76.66	77.09
WinoGrande	59.51	58.48	62.83	68.98	61.80	71.90
CommonsenseQA	58.48	42.10	76.41	63.55	71.74	71.58
TruthfulQA	43.80	38.66	46.67	39.90	41.41	45.31
TriviaQA	37.60	23.49	38.37	45.97	34.13	33.57
MMLU	45.58	39.91	60.25	49.24	51.82	53.17
HumanEval+	31.10	37.20	50.60	28.00	43.90	38.40
GSM8K	38.21	31.16	56.79	45.11	4.40	58.38
MATH-500	23.00	42.00	53.00	17.60	14.80	43.40
IFEval	62.71	66.67	50.12	57.91	36.81	53.48
MT-bench	5.43	6.40	6.12	5.50	6.57	5.85
平均	44.90	43.74	55.23	48.70	42.05	54.19

*LLaMA 3.2 1B使用剪枝和蒸馏。 **Gemma-3 1B使用蒸馏。

🔧 技术细节

效率重要提示

⚠️ 重要提示

使用标准的 transformers 库（即使是所需的分支）使用此模型时，请不要期望在性能效率（速度、延迟或能源消耗）方面有所提升。

transformers 内部当前的执行路径不包含利用BitNet架构优势所需的专门、高度优化的计算内核。通过 transformers 运行模型可能会导致推理速度和能源使用与该框架内的标准全精度模型相当，甚至可能更差，无论是在CPU还是GPU上。

虽然由于量化权重，你可能会观察到内存使用减少，但主要的计算效率优势无法通过这种标准的 transformers 使用路径获得。

要实现技术论文中展示的效率优势，你必须使用专用的C++实现：bitnet.cpp。