TinyLlama-1.1B-step-50K-105bオープンソースモデル - 最適化後、90日以内に低コストで訓練を完了できる

ホーム

Tinyllama 1.1B Step 50K 105b

TinyLlamaによって開発

TinyLlamaは1.1BパラメータのLlamaモデルで、3兆トークンの事前学習を計画しており、最適化により16台のA100-40G GPUで90日以内に学習を完了できます。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #軽量級Llama #効率的な事前学習 #低リソース要件

ダウンロード数 14.41k

リリース時間 : 9/1/2023

モデル概要

TinyLlamaプロジェクトは、コンパクトな1.1BパラメータのLlamaモデルを事前学習することを目的としており、Llama 2アーキテクチャとトークナイザーと互換性があり、計算リソースとメモリリソースが限られたアプリケーションシナリオに適しています。

モデル特徴

効率的な学習

最適化により、16台のA100-40G GPUで90日以内に3兆トークンの事前学習を完了できます。

互換性

Llama 2と同じアーキテクチャとトークナイザーを完全に採用しており、Llamaベースのオープンソースプロジェクトのほとんどと互換性があります。

コンパクト性

わずか1.1Bパラメータで、計算リソースとメモリリソースが限られたアプリケーションシナリオに適しています。

モデル能力

テキスト生成

使用事例

自然言語処理

テキスト生成

一貫性のあるテキストコンテンツを生成

🚀 TinyLlama-1.1B

TinyLlamaプロジェクトは、3兆トークンで11億パラメータのLlamaモデルを事前学習することを目指しています。適切な最適化を行うことで、16台のA100 - 40G GPUを使用してわずか90日でこれを達成することができます🚀🚀。学習は2023年9月1日に開始されました。

🚀 クイックスタート

このプロジェクトでは、Llama 2とまったく同じアーキテクチャとトークナイザーを採用しています。これにより、TinyLlamaはLlamaをベースに構築された多くのオープンソースプロジェクトですぐに使用できます。さらに、TinyLlamaはわずか11億のパラメータでコンパクトであり、計算とメモリ使用量が制限された多くのアプリケーションに対応できます。

✨ 主な機能

Llama 2と同じアーキテクチャとトークナイザーを採用。
1.1Bのパラメータでコンパクトで、計算とメモリ使用量が制限されたアプリケーションに適している。

📦 インストール

transformersバージョン4.31以上が必要です。詳細はTinyLlamaのGitHubページを確認してください。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer
import transformers 
import torch
model = "PY007/TinyLlama-1.1B-step-50K-105b"
tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.float16,
    device_map="auto",
)

sequences = pipeline(
    'The TinyLlama project aims to pretrain a 1.1B Llama model on 3 trillion tokens. With some proper optimization, we can achieve this within a span of "just" 90 days using 16 A100-40G GPUs 🚀🚀. The training has started on 2023-09-01.',
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    repetition_penalty=1.5,
    eos_token_id=tokenizer.eos_token_id,
    max_length=500,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

📚 ドキュメント

このモデル

これは50,000ステップと1050億トークンの中間チェックポイントです。

リリーススケジュール

以下のスケジュールに従って中間チェックポイントをリリースします。また、比較のためにいくつかのベースラインモデルも含めています。

日付	HFチェックポイント	トークン	ステップ	HellaSwag Acc_norm
ベースライン	StableLM-Alpha-3B	8000億	--	38.31
ベースライン	Pythia-1B-intermediate-step-50k-105b	1050億	50,000	42.04
ベースライン	Pythia-1B	3000億	143,000	47.16
2023-09-04	TinyLlama-1.1B-intermediate-step-50k-105b	1050億	50,000	43.50
2023-09-16	--	5000億	--	--
2023-10-01	--	1兆	--	--
2023-10-16	--	1.5兆	--	--
2023-10-31	--	2兆	--	--
2023-11-15	--	2.5兆	--	--
2023-12-01	--	3兆	--	--