B

Bitnet B1 58 Xl

由 1bitLLM 开发
BitNet b1.58 3B是一种1位量化的大型语言模型,使用RedPajama数据集训练了1000亿token,在保持性能的同时显著降低了计算资源需求。
下载量 10.64k
发布时间 : 3/29/2024

模型简介

该模型是对BitNet b1.58论文的复现实现,采用了1.58位量化技术,旨在提供高效的语言模型解决方案。

模型特点

1位量化
采用1.58位量化技术,大幅降低模型存储和计算需求
高效训练
使用两阶段学习率调整和权重衰减优化训练过程
性能接近全精度模型
在3B参数规模下,性能接近FP16全精度模型

模型能力

文本生成
语言理解
零样本学习

使用案例

自然语言处理
问答系统
可用于构建高效的问答系统
在ARC等基准测试中表现良好
文本生成
适用于各种文本生成任务
困惑度(PPL)表现接近全精度模型
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase