TinyLlama-1.1B-step-50K-105b開源模型 - 優化後可在90天內低成本完成訓練

首頁

Tinyllama 1.1B Step 50K 105b

由TinyLlama開發

TinyLlama是一個1.1B參數的Llama模型，計劃在3萬億token上進行預訓練，優化後可在16塊A100-40G GPU上90天內完成訓練。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #輕量級Llama #高效預訓練 #低資源需求

下載量 14.41k

發布時間 : 9/1/2023

模型概述

TinyLlama項目旨在預訓練一個緊湊的1.1B參數Llama模型，兼容Llama 2架構和分詞器，適用於計算和內存資源有限的應用場景。

模型特點

高效訓練

通過優化，僅需16塊A100-40G GPU即可在90天內完成3萬億token的預訓練。

兼容性

完全採用Llama 2相同的架構和分詞器，兼容多數基於Llama的開源項目。

緊湊性

僅含1.1B參數，適合計算和內存資源有限的應用場景。

模型能力

文本生成

使用案例

自然語言處理

文本生成

生成連貫的文本內容

🚀 TinyLlama-1.1B

TinyLlama項目旨在在3萬億個標記上對一個11億參數的Llama模型進行預訓練。通過適當的優化，使用16塊A100 - 40G GPU，我們可以在“僅”90天內完成這一目標🚀🚀。訓練已於2023年9月1日開始。

🚀 快速開始

TinyLlama項目致力於在3萬億個標記上預訓練一個11億參數的Llama模型。藉助適當的優化策略，使用16塊A100 - 40G GPU，僅需90天即可完成訓練。你可以按照以下步驟開始使用：

from transformers import AutoTokenizer
import transformers 
import torch
model = "PY007/TinyLlama-1.1B-step-50K-105b"
tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.float16,
    device_map="auto",
)

sequences = pipeline(
    'The TinyLlama project aims to pretrain a 1.1B Llama model on 3 trillion tokens. With some proper optimization, we can achieve this within a span of "just" 90 days using 16 A100-40G GPUs 🚀🚀. The training has started on 2023-09-01.',
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    repetition_penalty=1.5,
    eos_token_id=tokenizer.eos_token_id,
    max_length=500,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

⚠️ 重要提示

你需要transformers>=4.31版本。更多信息請查看 TinyLlama 的GitHub頁面。

✨ 主要特性

架構兼容：採用與Llama 2完全相同的架構和分詞器，這意味著TinyLlama可以無縫集成到許多基於Llama構建的開源項目中。
輕量級模型：僅有11億參數，非常適合對計算和內存要求有限的應用場景。

📚 詳細文檔

本模型

這是一個經過50000步、處理了1050億個標記後的中間檢查點模型。

發佈計劃

我們將按照以下計劃發佈中間檢查點。同時，為了便於比較，我們還列出了一些基線模型。

日期	Hugging Face檢查點	標記數	步數	HellaSwag Acc_norm
基線模型	StableLM-Alpha-3B	8000億	--	38.31
基線模型	Pythia-1B-intermediate-step-50k-105b	1050億	50000	42.04
基線模型	Pythia-1B	3000億	143000	47.16
2023-09-04	TinyLlama-1.1B-intermediate-step-50k-105b	1050億	50000	43.50
2023-09-16	--	5000億	--	--
2023-10-01	--	1萬億	--	--
2023-10-16	--	1.5萬億	--	--
2023-10-31	--	2萬億	--	--
2023-11-15	--	2.5萬億	--	--
2023-12-01	--	3萬億	--	--