BitNet b1.58オープンソース大規模言語モデル - 計算コストを削減し、全精度に近い性能を維持！

ホーム

Bitnet B1 58 Xl Q8 0 Gguf

BoscoTheDogによって開発

BitNet b1.58は1.58ビット量子化の大規模言語モデルで、重み精度を下げることで計算リソースの必要量を減らし、同時に全精度モデルに近い性能を維持します。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #1.58ビット量子化 #高効率言語モデル #ゼロショット学習

ダウンロード数 326

リリース時間 : 6/23/2024

モデル概要

このモデルはBitNet b1.58論文の再現で、RedPajamaデータセットを使って100Bトークンの訓練を行い、高効率な1.58ビット量子化LLMを実現しました。

モデル特徴

1.58ビット量子化

革新的な1.58ビット量子化技術を採用し、モデルの保存と計算の必要量を大幅に削減します

高効率訓練

2段階学習率と重み減衰戦略を使って訓練プロセスを最適化します

オープンソースモデル

すべての訓練済みモデルパラメータが完全にオープンソースです

全精度に近い性能

量子化された状態でもFP16精度モデルに近い性能を維持します

モデル能力

テキスト生成

ゼロショット学習

言語理解

質問応答タスク

使用事例

自然言語処理

オープンドメイン質問応答

様々な分野のオープンな質問に答えます

ARC、HellaSwagなどのベンチマークテストで良好な結果を示します

テキスト生成

首尾一貫した意味のあるテキストを生成します

困惑度(PPL)が全精度モデルに近いです

研究応用

高効率LLM研究

低ビット量子化がLLM性能に与える影響を研究します

高効率LLMの開発に参考を提供します

🚀 BitNet b1.58 論文再現プロジェクト

このプロジェクトは、BitNet b1.58 論文の再現です。モデルは RedPajama データセットを使用して、100B トークンで訓練されています。ハイパーパラメータ、2段階学習率、および重み減衰の実装は、彼らの後続の論文の提案を参考にしています。すべてのモデルはリポジトリでオープンソースとして公開されています。リソースが許す限り、より大規模なモデルを訓練するか、より多くのトークンで訓練を行う予定です。

✨ 主な機能

BitNet b1.58 論文のモデルを再現しました。
RedPajama データセットを使用して訓練しています。
すべてのモデルがオープンソースです。

📚 ドキュメント

結果

パープレキシティ（PPL）とゼロショット正解率：

モデル	パープレキシティ（PPL）	ARCe	ARCc	HS	BQ	OQ	PQ	WGe	平均
FP16 700M（報告値）	12.33	54.7	23.0	37.0	60.0	20.2	68.9	54.8	45.5
BitNet b1.58 700M（報告値）	12.87	51.8	21.4	35.1	58.2	20.0	68.1	55.2	44.3
BitNet b1.58 700M（再現値）	12.78	51.4	21.8	35.0	59.6	20.6	67.5	55.4	44.5
FP16 1.3B（報告値）	11.25	56.9	23.5	38.5	59.1	21.6	70.0	53.9	46.2
BitNet b1.58 1.3B（報告値）	11.29	54.9	24.2	37.7	56.7	19.6	68.8	55.8	45.4
BitNet b1.58 1.3B（再現値）	11.19	55.8	23.7	37.6	59.0	20.2	69.2	56.0	45.9
FP16 3B（報告値）	10.04	62.1	25.6	43.3	61.8	24.6	72.1	58.2	49.7
BitNet b1.58 3B（報告値）	9.91	61.4	28.3	42.9	61.5	26.6	71.5	59.3	50.2
BitNet b1.58 3B（再現値）	9.88	60.9	28.0	42.3	58.3	26.0	71.4	60.3	49.6