B

Bitnet B1.58 2B 4T

由microsoft開發
微軟研究院開發的首個開源20億參數規模原生1比特大語言模型,在4萬億token語料上訓練完成,證明了原生1比特大語言模型在保持與同規模全精度開源模型相當性能的同時,能顯著提升計算效率。
下載量 35.87k
發布時間 : 4/15/2025

模型概述

BitNet b1.58 2B4T是一個原生1.58比特的大語言模型,採用三元值{-1, 0, +1}權重和8比特激活,專為高效計算設計。該模型在保持與同規模全精度模型相當性能的同時,顯著降低了內存佔用和能耗。

模型特點

原生1.58比特量化
模型直接採用1.58比特權重和8比特激活方案從頭訓練,而非訓練後量化
高效計算
相比同規模全精度模型,顯著降低內存佔用、能耗和延遲
大規模訓練
在4萬億token的多樣化語料上進行訓練,包括文本、代碼和數學數據
優化架構
採用旋轉位置編碼、平方ReLU激活和subln歸一化等優化技術

模型能力

文本生成
對話系統
指令跟隨
代碼生成
數學推理

使用案例

對話系統
AI助手
構建高效能、低資源消耗的對話助手
在人類評估中獲得38.4分
數學推理
數學問題求解
解決GSM8K數學問題
達到58.38%的準確率
常識推理
常識問答
回答常識性問題
在常識QA上達到71.58分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase