Bitnet_b1_58-largeオープンソース大規模言語モデル - 無料で使用可能、大量のデータを処理して質の高い内容を出力

ホーム

Bitnet B1 58 Large

1bitLLMによって開発

BitNet b1.58は1ビット大規模言語モデルで、パラメータ規模は30億、RedPajamaデータセットで1000億トークン訓練されています。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #1.58ビット量子化 #効率的な推論 #言語モデル

ダウンロード数 10.17k

リリース時間 : 3/29/2024

モデル概要

このモデルは1ビット量子化された大規模言語モデルで、効率的な推論性能を提供しつつ、従来の浮動小数点モデルと同等の精度を維持します。

モデル特徴

1ビット量子化

モデルの重みと活性化値は1ビットのみで表現され、メモリ使用量と計算需要を大幅に削減します。

効率的な推論

従来の浮動小数点モデルと比較し、1ビット量子化は推論効率を著しく向上させます。

性能維持

モデル性能をフル精度モデルに近い状態で維持しながら量子化を実現します。

2段階訓練

論文で提案された2段階の学習率と重み減衰戦略を用いて訓練されています。

モデル能力

テキスト生成

言語理解

ゼロショット学習

使用事例

自然言語処理

質問応答システム

効率的な質問応答システムの構築に利用可能

ARCなどの質問応答ベンチマークで良好な性能を発揮

テキスト生成

様々なテキスト生成タスクに利用可能

パープレキシティ指標でフル精度モデルに近い性能

🚀 BitNet b1.58再現プロジェクト

このプロジェクトは、 BitNet b1.58 論文の再現を目的としています。モデルは RedPajamaデータセットを用いて100Bトークンで学習されています。ハイパーパラメータ、二段階学習率、および重み減衰は、彼らの論文で提案されている通りに実装されています。すべてのモデルはリポジトリでオープンソースとして公開されています。リソースが許す限り、より大規模なモデルやより多くのトークンでの学習を行う予定です。

📚 詳細ドキュメント

🔍 結果

PPLとゼロショット精度:

モデル	PPL	ARCe	ARCc	HS	BQ	OQ	PQ	WGe	平均
FP16 700M (報告値)	12.33	54.7	23.0	37.0	60.0	20.2	68.9	54.8	45.5
BitNet b1.58 700M (報告値)	12.87	51.8	21.4	35.1	58.2	20.0	68.1	55.2	44.3
BitNet b1.58 700M (再現値)	12.78	51.4	21.8	35.0	59.6	20.6	67.5	55.4	44.5
FP16 1.3B (報告値)	11.25	56.9	23.5	38.5	59.1	21.6	70.0	53.9	46.2
BitNet b1.58 1.3B (報告値)	11.29	54.9	24.2	37.7	56.7	19.6	68.8	55.8	45.4
BitNet b1.58 1.3B (再現値)	11.19	55.8	23.7	37.6	59.0	20.2	69.2	56.0	45.9
FP16 3B (報告値)	10.04	62.1	25.6	43.3	61.8	24.6	72.1	58.2	49.7
BitNet b1.58 3B (報告値)	9.91	61.4	28.3	42.9	61.5	26.6	71.5	59.3	50.2
BitNet b1.58 3B (再現値)	9.88	60.9	28.0	42.3	58.3	26.0	71.4	60.3	49.6

報告された数値と再現結果の差は、学習データの処理、シード、またはその他のランダムな要因によるバリエーションである可能性があります。

💻 評価

評価パイプラインは論文の著者によるものです。以下は評価を実行するためのコマンドです。

pip install lm-eval==0.3.0

python eval_ppl.py --hf_path 1bitLLM/bitnet_b1_58-3B --seqlen 2048

python eval_task.py --hf_path 1bitLLM/bitnet_b1_58-3B \
    --batch_size 1 \
    --tasks \
    --output_path result.json \
    --num_fewshot 0 \
    --ctx_size 2048