B

Bitnet B1 58 Xl

由1bitLLM開發
BitNet b1.58 3B是一種1位量化的大型語言模型,使用RedPajama數據集訓練了1000億token,在保持性能的同時顯著降低了計算資源需求。
下載量 10.64k
發布時間 : 3/29/2024

模型概述

該模型是對BitNet b1.58論文的復現實現,採用了1.58位量化技術,旨在提供高效的語言模型解決方案。

模型特點

1位量化
採用1.58位量化技術,大幅降低模型存儲和計算需求
高效訓練
使用兩階段學習率調整和權重衰減優化訓練過程
性能接近全精度模型
在3B參數規模下,性能接近FP16全精度模型

模型能力

文本生成
語言理解
零樣本學習

使用案例

自然語言處理
問答系統
可用於構建高效的問答系統
在ARC等基準測試中表現良好
文本生成
適用於各種文本生成任務
困惑度(PPL)表現接近全精度模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase