BitNet b1.58オープンソース大規模言語モデル - 高効率推論、大規模データセットに基づく訓練

Bitnet B1 58 3B

1bitLLMによって開発

BitNet b1.58は1.58ビット量子化された大規模言語モデルで、重みを{-1,0,1}の3値に量子化することで効率的な推論を実現しています。このモデルは原論文の結果を再現し、RedPajamaデータセットで1000億トークン訓練されました。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #1ビット量子化 #効率的な推論 #言語モデル

ダウンロード数 1,109

リリース時間 : 3/29/2024

モデル概要

BitNet b1.58は効率的な大規模言語モデルで、1.58ビット量子化技術を採用し、重みは{-1,0,1}の3値のみを使用することで、計算とストレージの需要を大幅に削減しながら、フル精度モデルに近い性能を維持しています。

モデル特徴

1.58ビット量子化

重みは{-1,0,1}の3値のみを使用し、モデルのストレージと計算需要を大幅に削減

効率的な推論

量子化設計により、モデルは推論時に高い計算効率を発揮

FP16に近い性能

大幅な量子化にもかかわらず、モデル性能はフル精度(FP16)バージョンに近い

2段階訓練

論文で提案された2段階の学習率と重み減衰戦略を採用し、訓練プロセスを最適化

モデル能力

テキスト生成

言語理解

ゼロショットタスク処理

使用事例

効率的な推論シナリオ

エッジデバイス展開

低ビット量子化特性を活用し、リソース制約のあるデバイスに大規模言語モデルを展開

計算とストレージ需要を削減し、合理的な性能を維持

大規模サービス

高同時接続シナリオで効率的な言語モデルサービスを提供

サーバーリソース消費を削減

研究応用

モデル量子化研究

低ビット量子化大規模言語モデルのベンチマークリファレンスとして

再現可能な量子化モデル実装を提供

🚀 BitNet b1.58再現プロジェクト

このプロジェクトは、BitNet b1.58論文の再現結果です。モデルは、RedPajamaデータセットを用いて100Bトークンで学習されています。ハイパーパラメータ、二段階学習率、および重み減衰は、この論文で提案されている通りに実装されています。すべてのモデルは、このリポジトリでオープンソースとして公開されています。リソースが許す限り、より大規模なモデルやより多くのトークンでの学習を行う予定です。

📚 詳細ドキュメント

🔍 結果

PPLとゼロショット精度:

モデル	PPL	ARCe	ARCc	HS	BQ	OQ	PQ	WGe	平均
FP16 700M (報告値)	12.33	54.7	23.0	37.0	60.0	20.2	68.9	54.8	45.5
BitNet b1.58 700M (報告値)	12.87	51.8	21.4	35.1	58.2	20.0	68.1	55.2	44.3
BitNet b1.58 700M (再現値)	12.78	51.4	21.8	35.0	59.6	20.6	67.5	55.4	44.5
FP16 1.3B (報告値)	11.25	56.9	23.5	38.5	59.1	21.6	70.0	53.9	46.2
BitNet b1.58 1.3B (報告値)	11.29	54.9	24.2	37.7	56.7	19.6	68.8	55.8	45.4
BitNet b1.58 1.3B (再現値)	11.19	55.8	23.7	37.6	59.0	20.2	69.2	56.0	45.9
FP16 3B (報告値)	10.04	62.1	25.6	43.3	61.8	24.6	72.1	58.2	49.7
BitNet b1.58 3B (報告値)	9.91	61.4	28.3	42.9	61.5	26.6	71.5	59.3	50.2
BitNet b1.58 3B (再現値)	9.88	60.9	28.0	42.3	58.3	26.0	71.4	60.3	49.6

報告された数値と再現結果の差は、学習データの処理、シード、またはその他のランダムな要因によるバリエーションである可能性があります。

💻 評価

評価パイプラインは論文の著者によるものです。以下は評価を実行するためのコマンドです。

基本的な使用法

pip install lm-eval==0.3.0

高度な使用法

python eval_ppl.py --hf_path 1bitLLM/bitnet_b1_58-3B --seqlen 2048

python eval_task.py --hf_path 1bitLLM/bitnet_b1_58-3B \
    --batch_size 1 \
    --tasks \
    --output_path result.json \
    --num_fewshot 0 \
    --ctx_size 2048