🚀 GPT2 124M烏克蘭小說訓練模型
本模型基於GPT2 124M在烏克蘭小說數據集上進行訓練,可用於文本生成任務,為烏克蘭語相關的文本創作提供支持。
🚀 快速開始
由於我們使用 AlbertTokenizer
和 GPT2LMHeadModel
,上述默認代碼片段將無法正常工作,請參考 問題。
✨ 主要特性
- 文本生成:能夠根據給定的輸入文本生成相關的烏克蘭語文本。
📦 安裝指南
文檔未提供具體安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
from transformers import AlbertTokenizer, GPT2LMHeadModel
tokenizer = AlbertTokenizer.from_pretrained("Tereveni-AI/gpt2-124M-uk-fiction")
model = GPT2LMHeadModel.from_pretrained("Tereveni-AI/gpt2-124M-uk-fiction")
input_ids = tokenizer.encode("Но зла Юнона, суча дочка,", add_special_tokens=False, return_tensors='pt')
outputs = model.generate(
input_ids,
do_sample=True,
num_return_sequences=3,
max_length=50
)
for i, out in enumerate(outputs):
print("{}: {}".format(i, tokenizer.decode(out)))
運行上述代碼可能會輸出如下內容:
0: Но зла Юнона, суча дочка, яка затьмарила всі її таємниці: І хто з'їсть її душу, той помре». І, не дочекавшись гніву богів, посунула в пітьму, щоб не бачити перед собою. Але, за
1: Но зла Юнона, суча дочка, і довела мене до божевілля. Але він не знав нічого. Після того як я його побачив, мені стало зле. Я втратив рівновагу. Але в мене не було часу на роздуми. Я вже втратив надію
2: Но зла Юнона, суча дочка, не нарікала нам! — раптом вигукнула Юнона. — Це ти, старий йолопе! — мовила вона, не перестаючи сміятись. — Хіба ти не знаєш, що мені подобається ходити з тобою?
📚 詳細文檔
訓練詳情
- 訓練數據:模型在包含4040本小說的語料庫上進行訓練,語料庫總大小為2.77 GiB。
- 評估指標:在 brown-uk 數據集上進行評估,困惑度為50.16。
屬性 |
詳情 |
模型類型 |
GPT2 124M烏克蘭小說訓練模型 |
訓練數據 |
4040本小說語料庫,總大小2.77 GiB |
評估數據集 |
brown-uk |
困惑度 |
50.16 |
⚠️ 重要提示
由於我們使用 AlbertTokenizer
和 GPT2LMHeadModel
,上述默認代碼片段將無法正常工作,請參考 問題。