Llama3-8B-1.58-100B-tokensオープンソース大規模言語モデル - 超長対話をサポートし、無料で簡単に使用可能！

ホーム

Llama3 8B 1.58 100B Tokens

HF1BitLLMによって開発

BitNet 1.58bアーキテクチャを基にファインチューニングされた大規模言語モデルで、ベースモデルはLlama-3-8B-Instruct、極端な量子化技術を採用

大規模言語モデル

Transformers

#1.58ビット量子化 #効率的なファインチューニング #教育分野の最適化

ダウンロード数 2,427

リリース時間 : 9/10/2024

モデル概要

Llama3-8B-1.58は1.58ビット量子化を採用した効率的な大規模言語モデルで、1000億トークンの訓練により最適化され、性能を維持しながら計算リソース要件を大幅に削減

モデル特徴

極端な量子化技術

1.58ビット量子化アーキテクチャを採用し、モデルのストレージと計算要件を大幅に削減

大規模訓練

1000億トークンの拡張訓練を経て、性能は半精度モデルに近い

効率的な推論

良好な性能を維持しながらリソース消費を削減

モデル能力

テキスト生成

質問応答システム

論理的推論

使用事例

教育

推論質問応答

人物の位置変化の追跡など、多段階の推論問題を解決

多段階の位置変化を含む推論問題に正しく回答可能

研究

量子化技術研究

極端な量子化条件下でのLLMの性能限界を探求

性能は半精度モデルに近い

🚀 トランスフォーマーライブラリによるLlama3-8B-1.58モデル

Llama3-8B-1.58 モデルは、ベースモデル Llama-3-8B-Instruct から始まり、BitNet 1.58bアーキテクチャ でファインチューニングされた大規模言語モデルです。

方法と結果の詳細については、ブログ記事をご覧ください。

🚀 クイックスタート

Transformersで簡単にモデルをロードしてテストできます。以下のコードに従ってください。

まず、bitnetモデルをロードするための正しい設定でtransformersバージョンをインストールします。

pip install git+https://github.com/huggingface/transformers.git@refs/pull/33410/head

次に、モデルをロードします。

model = AutoModelForCausalLM.from_pretrained("HF1BitLLM/Llama3-8B-1.58-100B-tokens", device_map="cuda", torch_dtype=torch.bfloat16)    
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B-Instruct")

input_text = "Daniel went back to the the the garden. Mary travelled to the kitchen. Sandra journeyed to the kitchen. Sandra went to the hallway. John went to the bedroom. Mary went back to the garden. Where is Mary?\nAnswer:"

input_ids = tokenizer.encode(input_text, return_tensors="pt").cuda()
output = model.generate(input_ids, max_length=10, do_sample=False)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

✨ 主な機能

このモデルは、高度な量子化技術を用いており、1000億トークンでのトレーニングにより、半精度モデルに近い性能を発揮します。

📦 インストール

pip install git+https://github.com/huggingface/transformers.git@refs/pull/33410/head

💻 使用例

基本的な使用法

model = AutoModelForCausalLM.from_pretrained("HF1BitLLM/Llama3-8B-1.58-100B-tokens", device_map="cuda", torch_dtype=torch.bfloat16)    
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B-Instruct")

input_text = "Daniel went back to the the the garden. Mary travelled to the kitchen. Sandra journeyed to the kitchen. Sandra went to the hallway. John went to the bedroom. Mary went back to the garden. Where is Mary?\nAnswer:"

input_ids = tokenizer.encode(input_text, return_tensors="pt").cuda()
output = model.generate(input_ids, max_length=10, do_sample=False)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

📚 ドキュメント

モデルの詳細

モデルのソース

リポジトリ: Model
論文: The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

トレーニングの詳細

トレーニングデータ

このモデルは、FineWeb-edu のサブセットでトレーニングされました。

トレーニングプロセス

開始地点
- 線形ラムダスケジューラを使用した100億トークンのランで最良のパフォーマンスを示したチェックポイント
トレーニング期間
- さらに45,000ステップでファインチューニング
- 合計1000億トークンに達成
データセット
- FineWeb-eduデータセット
バッチサイズ
- ステップごとに200万トークン
- 1ランあたりの合計: 45,000ステップ * 200万トークン = 900億トークン
- 初期の100億トークンと合わせて1000億トークンに達成
学習率の実験
- 最適な設定を見つけるために様々な学習率をテスト。実験によると、最良のピーク学習率は1e-5です。
パフォーマンス
- いくつかの指標でLlama3 8Bに近いパフォーマンスを示す
- 全体的な平均パフォーマンスではLlama3 8Bに劣る
評価
- 評価指標には、パープレキシティ、MMLUスコア、およびその他の標準的なベンチマークが含まれます。

これらの1000億トークンでの拡張トレーニングランは、高度に量子化されたモデルの限界を押し広げ、Llama3のような半精度モデルに近いパフォーマンスをもたらします。

評価

モデルの評価は、LightEvalを使用してnanotronチェックポイントで行われます。

results

🔧 技術詳細

このモデルは、BitNet 1.58bアーキテクチャを使用しており、高度な量子化技術を用いています。トレーニングは、FineWeb-eduデータセットのサブセットで行われ、1000億トークンでのトレーニングにより、半精度モデルに近いパフォーマンスを発揮します。

📄 ライセンス

@misc{,
      title={1.58-Bit LLM: A New Era of Extreme Quantization}, 
      author={Mohamed Mekkouri and Marc Sun and Leandro von Werra and Thomas Wolf},
      year={2024},
}