tinystories-gpt2-3M開源文本生成模型 - 免費使用保障文本生成連貫性

首頁

Tinystories Gpt2 3M

由calum開發

這是一個小型GPT-2模型，在TinyStories V2數據集上預訓練，具有3M可訓練參數，表現出良好的文本生成連貫性。

大型語言模型

Transformers

英語#小參數GPT-2 #兒童故事生成 #英文文本生成

下載量 637

發布時間 : 10/9/2023

模型概述

該模型是基於GPT-2架構的小型語言模型，專門為研究目的設計，在有限的詞彙量下展現出令人驚訝的文本生成能力。

模型特點

小型高效

僅3M參數的小型模型，在有限資源下表現出色

連貫生成

在給定其大小的情況下，表現出驚人的文本連貫性

研究友好

採用廣泛支持的GPT-2架構，便於研究實驗

模型能力

英文文本生成

短篇故事創作

受限詞彙量下的連貫表達

使用案例

教育研究

小型語言模型研究

用於研究有限參數下語言模型的性能表現

可觀察到小型模型在特定領域的生成能力

文本生成

簡單故事創作

生成適合兒童閱讀的簡短故事

在訓練詞彙範圍內可生成連貫故事

🚀 TinyStories-GPT2-3M

TinyStories-GPT2-3M是一個小型的GPT - 2模型，僅有300萬個可訓練參數。它在TinyStories V2數據集上進行了3個輪次的預訓練，為研究提供了輕量級的文本生成解決方案。

🚀 快速開始

本模型是一個小型（300萬個可訓練參數）的GPT - 2模型，在TinyStories V2數據集上進行了3個輪次的預訓練。

✨ 主要特性

採用GPT - 2架構替代GPT - Neo，在工具支持方面更具優勢，有助於加速研究。
儘管模型規模小，但生成的文本具有一定的連貫性。

📚 詳細文檔

模型描述

TinyStories-GPT2-3M是TinyStories模型的復現版本，使用GPT - 2架構替代了GPT - Neo。這是為了加速研究而做出的有意選擇，因為GPT - 2架構在各種工具中得到了更廣泛的支持。與原始模型類似，儘管該模型規模較小，但生成的文本具有令人驚訝的連貫性，不過我們並未在性能上做出顯著改進。

預期用途與侷限性

研究用途：僅適用於研究，根據OpenAI關於使用其API獲取訓練數據的服務條款，該模型不適合商業用途。
詞彙侷限性：該模型訓練所用的詞彙量相當有限。與更大、更通用的模型相比，分佈外的輸入效果不佳。例如，在輸入像“Biology”這樣的非平凡詞彙後嘗試生成幾個標記，模型通常會將訓練中不常出現的詞彙視為故事中的角色名稱。
語言侷限性：所有訓練數據均為英文。因此，輸入其他語言屬於分佈外情況，模型可能會將之前的輸入視為角色名稱、完全忽略輸入或生成無意義的標記。

訓練和評估數據

該模型在由GPT - 4生成的TinyStories V2數據集上進行了3個輪次的訓練。

📦 安裝指南

若要復現訓練過程，需下載GPT - 4 V2版本的TinyStories數據集以及HuggingFace的train_clm.py腳本，然後運行以下命令：

#! /bin/bash

python train_clm.py \
    --model_type=gpt2 \
    --config_overrides=n_embd=64,n_layer=8,n_head=16 \
    --tokenizer_name=gpt2 \
    --train_file="data/TinyStoriesV2-GPT4-train.txt" \
    --validation_file="data/TinyStoriesV2-GPT4-valid.txt" \
    --block_size=256 \
    --preprocessing_num_workers=8 \
    --output_dir="out" \
    --logging_dir="./log" \
    --logging_steps=100 \
    --logging_strategy=steps \
    --save_steps=5000 \
    --save_total_limit=10 \
    --do_train

訓練超參數

訓練過程中使用了以下超參數：

屬性	詳情
n_embd	64
n_layer	8
n_head	16
learning_rate	5e - 05
train_batch_size	16
eval_batch_size	16
seed	42
optimizer	Adam（betas=(0.9,0.999)，epsilon=1e - 08）
lr_scheduler_type	linear
num_epochs	3.0