bitnet-b1.58-2B-4Tオープンソース大規模言語モデル - 高性能で低コンピューティングコスト、無料で楽しめる

Bitnet B1.58 2B 4T

microsoftによって開発

マイクロソフトリサーチが開発した初のオープンソース20億パラメータ規模のネイティブ1ビット大規模言語モデル。4兆トークンのコーパスでトレーニングされ、ネイティブ1ビット大規模言語モデルが同規模のフル精度オープンソースモデルと同等の性能を維持しながら、計算効率を大幅に向上させることを証明しました。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #1.58ビット量子化 #効率的な推論 #低消費電力LLM

ダウンロード数 35.87k

リリース時間 : 4/15/2025

モデル概要

BitNet b1.58 2B4Tはネイティブ1.58ビットの大規模言語モデルで、三元値{-1, 0, +1}の重みと8ビットの活性化を使用し、効率的な計算のために設計されています。このモデルは同規模のフル精度モデルと同等の性能を維持しながら、メモリ使用量と電力消費を大幅に削減します。

モデル特徴

ネイティブ1.58ビット量子化

モデルは直接1.58ビット重みと8ビット活性化スキームを使用して最初からトレーニングされ、トレーニング後の量子化ではありません

効率的な計算

同規模のフル精度モデルと比較して、メモリ使用量、電力消費、遅延を大幅に削減

大規模トレーニング

テキスト、コード、数学データを含む4兆トークンの多様なコーパスでトレーニング

最適化アーキテクチャ

回転位置エンコーディング、二乗ReLU活性化、subln正規化などの最適化技術を採用

モデル能力

テキスト生成

対話システム

命令追従

コード生成

数学的推論

使用事例

対話システム

AIアシスタント

高性能で低リソース消費の対話アシスタントを構築

人間評価で38.4点を獲得

数学的推論

数学問題解決

GSM8K数学問題を解決

58.38%の精度を達成

常識推論

常識質問応答

常識的な質問に回答

常識QAで71.58点を達成

🚀 BitNet b1.58 2B4T - ネイティブ1ビットLLMのスケーリング

このリポジトリには、Microsoft Researchによって開発された、20億パラメータ規模の最初のオープンソース、ネイティブ1ビットの大規模言語モデル（LLM）である BitNet b1.58 2B4T の重みが含まれています。

4兆トークンのコーパスで学習されたこのモデルは、ネイティブ1ビットのLLMが、同規模の主要なオープンウェイト、フル精度モデルと同等の性能を達成しつつ、計算効率（メモリ、エネルギー、レイテンシ）において大きな利点を提供できることを示しています。

➡️ 技術レポート: BitNet b1.58 2B4T Technical Report

➡️ 公式推論コード: microsoft/BitNet (bitnet.cpp)

✨ 主な機能

モデルのバリエーション

Hugging Faceには、いくつかのバージョンのモデル重みが用意されています。

microsoft/bitnet-b1.58-2B-4T (このリポジトリ): 効率的な推論用に最適化されたパックされた1.58ビットの重みが含まれています。デプロイにはこれを使用してください。
microsoft/bitnet-b1.58-2B-4T-bf16: BF16形式のマスター重みが含まれています。トレーニングまたはファインチューニング目的のみにこれを使用してください。
microsoft/bitnet-b1.58-2B-4T-gguf: GGUF形式のモデル重みが含まれており、CPU推論用の bitnet.cpp ライブラリと互換性があります。

モデルの詳細

属性	詳情
アーキテクチャ	Transformerベースで、`BitLinear` レイヤー（BitNetフレームワーク）で修正されています。 - Rotary Position Embeddings (RoPE) を使用。 - FFNレイヤーで平方ReLU (ReLU²) 活性化関数を使用。 - `subln` 正規化を採用。 - 線形または正規化レイヤーにバイアス項はありません。
量子化	ネイティブ1.58ビットの重みと8ビットの活性化 (W1.58A8)。 - 重みは、順伝播中にabsmean量子化を使用して三元値 {-1, 0, +1} に量子化されます。 - 活性化は、absmax量子化（トークンごと）を使用して8ビット整数に量子化されます。 - *重要なことは、このモデルはこの量子化スキームでゼロから学習* されており、学習後の量子化ではありません。**
パラメータ	約20億
学習トークン	4兆
コンテキスト長	最大シーケンス長は 4096トークン。推奨事項: 非常に長いコンテキストが必要なタスク（事前学習長を超える場合や、特殊な長期推論タスクの場合）で最適なパフォーマンスを得るには、最終的なファインチューニング段階の前に中間的な長シーケンス適応/学習を行うことをおすすめします。
学習段階	1. 事前学習: 二段階の学習率と重み減衰スケジュールを使用して、公開テキスト/コードおよび合成数学データで大規模な学習を行います。 2. 教師付きファインチューニング (SFT): 合計損失集約と特定のハイパーパラメータチューニングを使用して、命令追従および会話データセットでファインチューニングを行います。 3. 直接嗜好最適化 (DPO): 嗜好ペアを使用して人間の嗜好に合わせて調整します。
トークナイザー	LLaMA 3トークナイザー（語彙サイズ: 128,256）。

📦 インストール

必要条件

pip install git+https://github.com/huggingface/transformers.git@096f25ae1f501a084d8ff2dcaf25fbc2bd60eba4

💻 使用例

基本的な使用法 (`transformers` を使用)

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "microsoft/bitnet-b1.58-2B-4T"

# トークナイザーとモデルをロード
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16
)

# チャットテンプレートを適用
messages = [
    {"role": "system", "content": "You are a helpful AI assistant."},
    {"role": "user", "content": "How are you?"},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
chat_input = tokenizer(prompt, return_tensors="pt").to(model.device)

# 応答を生成
chat_outputs = model.generate(**chat_input, max_new_tokens=50)
response = tokenizer.decode(chat_outputs[0][chat_input['input_ids'].shape[-1]:], skip_special_tokens=True) # 応答部分のみをデコード
print("\nAssistant Response:", response)

高度な使用法 (`bitnet.cpp` を使用)

詳細なコンパイル手順、使用例、およびコマンドラインオプションについては、bitnet.cpp のGitHubリポジトリを参照してください。

🔧 技術詳細

評価

BitNet b1.58 2B4Tは、同規模の主要なオープンウェイトのフル精度LLMと比較して評価されました。以下は主要な結果です（すべてのモデルは命令調整されたバージョンです）。

ベンチマーク	LLaMA 3.2 1B	Gemma-3 1B	Qwen2.5 1.5B	SmolLM2 1.7B	MiniCPM 2B	BitNet b1.58 2B
メモリ (非埋め込み)	2GB	1.4GB	2.6GB	3.2GB	4.8GB	0.4GB
レイテンシ (CPUデコード)	48ms	41ms	65ms	67ms	124ms	29ms
エネルギー (推定)	0.258J	0.186J	0.347J	0.425J	0.649J	0.028J
学習トークン (事前学習)	9T*	2T**	18T	11T	1.1T	4T
ARC-Challenge	37.80	38.40	46.67	43.52	44.80	49.91
ARC-Easy	63.17	63.13	76.01	62.92	72.14	74.79
OpenbookQA	34.80	38.80	40.80	46.00	40.20	41.60
BoolQ	64.65	74.22	78.04	75.78	80.67	80.18
HellaSwag	60.80	57.69	68.28	71.71	70.81	68.44
PIQA	74.21	71.93	76.12	76.12	76.66	77.09
WinoGrande	59.51	58.48	62.83	68.98	61.80	71.90
CommonsenseQA	58.48	42.10	76.41	63.55	71.74	71.58
TruthfulQA	43.80	38.66	46.67	39.90	41.41	45.31
TriviaQA	37.60	23.49	38.37	45.97	34.13	33.57
MMLU	45.58	39.91	60.25	49.24	51.82	53.17
HumanEval+	31.10	37.20	50.60	28.00	43.90	38.40
GSM8K	38.21	31.16	56.79	45.11	4.40	58.38
MATH-500	23.00	42.00	53.00	17.60	14.80	43.40
IFEval	62.71	66.67	50.12	57.91	36.81	53.48
MT-bench	5.43	6.40	6.12	5.50	6.57	5.85
平均	44.90	43.74	55.23	48.70	42.05	54.19

*LLaMA 3.2 1Bはプルーニングと蒸留を使用しています。

**Gemma-3 1Bは蒸留を使用しています。

重要提示

⚠️ 重要提示

標準のtransformersライブラリを使用してこのモデルを使用する場合、必要なフォークを使用しても、速度、レイテンシ、またはエネルギー消費の面でのパフォーマンス効率の向上は期待しないでください。

transformers内の現在の実行パスには、BitNetアーキテクチャの利点を生かすために必要な特殊な、高度に最適化された計算カーネルが含まれていません。transformersを介してモデルを実行すると、このフレームワーク内の標準のフル精度モデルと同等または潜在的に劣る推論速度とエネルギー使用量になる可能性があります。

量子化された重みのためにメモリ使用量が減少することがありますが、この標準的なtransformersの使用パスでは主な計算効率の利点は得られません。

技術論文で示されている効率の利点を達成するには、専用のC++実装である bitnet.cpp を使用する必要があります。

📄 ライセンス

モデルの重みとコードは、MITライセンスの下で公開されています。

バイアス、リスク、および制限事項

予測結果は、学習データに含まれるバイアスを引き継ぐ可能性があります。

非英語言語や代表されていないドメインに対するサポートは限られています。

不正確または有害なコンテンツを生成するリスクがあります。

Bitnetモデルは、選挙に関するクリティカルなクエリに応答する際に欠陥率が高く、不正確または非公式の選挙関連情報が提示される可能性があります。私たちはこの領域でのモデルのパフォーマンスを改善するために取り組んでいます。ユーザーは選挙関連の情報を地域の選挙当局と照合する必要があります。

免責事項

私たちは、さらなるテストと開発なしにBitNet b1.58を商用または実世界のアプリケーションで使用することをおすすめしません。このモデルは研究および開発目的で意図されています。SFTとDPOを使用して調整する努力がなされていますが、予期せぬ、バイアスのある、または不正確な出力を生成する可能性があります。責任を持って使用してください。