BitNet b1.58 3Bオープンソース大規模言語モデル - リソース要件を削減しつつ高パフォーマンスを維持し、無料で利用可能

ホーム

Bitnet B1 58 Xl

1bitLLMによって開発

BitNet b1.58 3Bは1ビット量子化された大規模言語モデルで、RedPajamaデータセットを使用して1000億トークン訓練され、性能を維持しながら計算リソース要件を大幅に削減しました。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #1ビット量子化LLM #効率的な推論 #低リソーストレーニング

ダウンロード数 10.64k

リリース時間 : 3/29/2024

モデル概要

このモデルはBitNet b1.58論文の再現実装で、1.58ビット量子化技術を採用し、効率的な言語モデルソリューションを提供することを目的としています。

モデル特徴

1ビット量子化

1.58ビット量子化技術を採用し、モデルのストレージと計算要件を大幅に削減

効率的なトレーニング

2段階の学習率調整と重み減衰を使用してトレーニングプロセスを最適化

フル精度モデルに近い性能

3Bパラメータ規模で、FP16フル精度モデルに近い性能を発揮

モデル能力

テキスト生成

言語理解

ゼロショット学習

使用事例

自然言語処理

質問応答システム

効率的な質問応答システムの構築に使用可能

ARCなどのベンチマークテストで良好なパフォーマンス

テキスト生成

様々なテキスト生成タスクに適しています

パープレキシティ(PPL)のパフォーマンスがフル精度モデルに近い

🚀 BitNet b1.58再現プロジェクト

このプロジェクトは、 BitNet b1.58 論文の再現です。モデルは RedPajamaデータセットを用いて100Bトークンで学習されています。ハイパーパラメータ、二段階学習率、および重み減衰は、彼らの論文で提案されている通りに実装されています。すべてのモデルはリポジトリでオープンソースとして公開されています。リソースが許す限り、より大きなモデルやより多くのトークンでの学習を行う予定です。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

📊 結果

PPLとゼロショット精度：

モデル	PPL	ARCe	ARCc	HS	BQ	OQ	PQ	WGe	平均
FP16 700M (報告値)	12.33	54.7	23.0	37.0	60.0	20.2	68.9	54.8	45.5
BitNet b1.58 700M (報告値)	12.87	51.8	21.4	35.1	58.2	20.0	68.1	55.2	44.3
BitNet b1.58 700M (再現値)	12.78	51.4	21.8	35.0	59.6	20.6	67.5	55.4	44.5
FP16 1.3B (報告値)	11.25	56.9	23.5	38.5	59.1	21.6	70.0	53.9	46.2
BitNet b1.58 1.3B (報告値)	11.29	54.9	24.2	37.7	56.7	19.6	68.8	55.8	45.4
BitNet b1.58 1.3B (再現値)	11.19	55.8	23.7	37.6	59.0	20.2	69.2	56.0	45.9
FP16 3B (報告値)	10.04	62.1	25.6	43.3	61.8	24.6	72.1	58.2	49.7
BitNet b1.58 3B (報告値)	9.91	61.4	28.3	42.9	61.5	26.6	71.5	59.3	50.2
BitNet b1.58 3B (再現値)	9.88	60.9	28.0	42.3	58.3	26.0	71.4	60.3	49.6

報告された数値と再現結果の差は、学習データの処理、乱数シード、またはその他のランダムな要因によるバリアンスが原因である可能性があります。

🧪 評価

評価パイプラインは論文の著者によるものです。以下は評価を実行するためのコマンドです。

🔧 環境構築

pip install lm-eval==0.3.0

📊 PPL評価

python eval_ppl.py --hf_path 1bitLLM/bitnet_b1_58-3B --seqlen 2048

📋 タスク評価

python eval_task.py --hf_path 1bitLLM/bitnet_b1_58-3B \
    --batch_size 1 \
    --tasks \
    --output_path result.json \
    --num_fewshot 0 \
    --ctx_size 2048