🚀 TinyLlama-1.1B
TinyLlamaプロジェクトは、3兆トークンで11億パラメータのLlamaモデルを事前学習することを目指しています。適切な最適化を行うことで、16台のA100 - 40G GPUを使用して「たった」90日でこれを達成することができます🚀🚀。学習は2023年9月1日に開始されました。
このモデルは、Llama 2とまったく同じアーキテクチャとトークナイザーを採用しています。これは、TinyLlamaがLlamaをベースに構築された多くのオープンソースプロジェクトで即座に使用できることを意味します。さらに、TinyLlamaはわずか11億のパラメータでコンパクトです。このコンパクトさにより、制限された計算とメモリを必要とする多くのアプリケーションに対応することができます。
🚀 クイックスタート
TinyLlamaプロジェクトは、3兆トークンで11億パラメータのLlamaモデルを事前学習することを目指しています。適切な最適化を行うことで、16台のA100 - 40G GPUを使用して「たった」90日でこれを達成することができます🚀🚀。学習は2023年9月1日に開始されました。
✨ 主な機能
- Llama 2と同じアーキテクチャとトークナイザーを採用し、Llamaベースのオープンソースプロジェクトでの互換性が高い。
- 11億のパラメータでコンパクトで、制限された計算とメモリ環境での使用に適している。
📦 インストール
transformers
バージョン4.31以上が必要です。詳細な情報はこちらのGitHubページを確認してください。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer
import transformers
import torch
model = "PY007/TinyLlama-1.1B-intermediate-step-715k-1.5T"
tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
"text-generation",
model=model,
torch_dtype=torch.float16,
device_map="auto",
)
sequences = pipeline(
'The TinyLlama project aims to pretrain a 1.1B Llama model on 3 trillion tokens. With some proper optimization, we can achieve this within a span of "just" 90 days using 16 A100-40G GPUs 🚀🚀. The training has started on 2023-09-01.',
do_sample=True,
top_k=10,
num_return_sequences=1,
repetition_penalty=1.5,
eos_token_id=tokenizer.eos_token_id,
max_length=500,
)
for seq in sequences:
print(f"Result: {seq['generated_text']}")
📚 ドキュメント
このモデルについて
これは715,000ステップと1.49兆トークンの中間チェックポイントです。直接推論に使用しないことをおすすめします。
評価結果
モデル |
事前学習トークン |
HellaSwag |
Obqa |
WinoGrande |
ARC_c |
ARC_e |
boolq |
piqa |
平均 |
Pythia-1.0B |
300B |
47.16 |
31.40 |
53.43 |
27.05 |
48.99 |
60.83 |
69.21 |
48.30 |
TinyLlama-1.1B-intermediate-step-50K-104b |
103B |
43.50 |
29.80 |
53.28 |
24.32 |
44.91 |
59.66 |
67.30 |
46.11 |
TinyLlama-1.1B-intermediate-step-240k-503b |
503B |
49.56 |
31.40 |
55.80 |
26.54 |
48.32 |
56.91 |
69.42 |
48.28 |
TinyLlama-1.1B-intermediate-step-480k-1007B |
1007B |
52.54 |
33.40 |
55.96 |
27.82 |
52.36 |
59.54 |
69.91 |
50.22 |
TinyLlama-1.1B-intermediate-step-715k-1.5T |
1.49T |
53.68 |
35.20 |
58.33 |
29.18 |
51.89 |
59.08 |
71.65 |
51.29 |
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で公開されています。
データセット
- cerebras/SlimPajama-627B
- bigcode/starcoderdata