B

Bitnet B1.58 2B 4T Bf16

由microsoft開發
由微軟研究院開發的開源原生1位大語言模型,參數規模達20億,在4萬億token的語料庫上訓練而成,顯著提升計算效率。
下載量 2,968
發布時間 : 4/15/2025

模型概述

首個開源的、參數規模達20億的原生1位大語言模型,證明了原生1位大語言模型在保持與同類全精度模型相當性能的同時,能顯著提升計算效率(內存、能耗、延遲)。

模型特點

原生1.58位量化
權重在前向傳播時通過絕對值均值量化到三元值{-1, 0, +1},激活通過絕對值最大值量化到8位整數。
高效計算
顯著提升計算效率(內存、能耗、延遲),內存佔用僅為0.4GB,延遲29ms(CPU解碼),能耗估算0.028J。
大規模訓練
在4萬億token的語料庫上訓練而成,證明了原生1位大語言模型的可行性。
優化架構
採用BitLinear層、旋轉位置編碼(RoPE)、平方ReLU(ReLU²)激活和subln歸一化,線性層和歸一化層無偏置項。

模型能力

文本生成
聊天
指令遵循
數學推理
常識問答

使用案例

對話系統
AI助手
作為有幫助的AI助手,進行自然語言對話。
在人類評估中得分為38.40
教育
數學問題解答
解答數學問題,如GSM8K數據集中的問題。
GSM8K得分為58.38
知識問答
常識問答
常識QA得分為71.58
專業知識問答
MMLU得分為53.17
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase