🚀 FRED-T5 large 820M (Full-scale Russian Enhanced Denoisers T5)
このモデルのアーキテクチャ設計、事前学習、評価については、我々のプレプリント A Family of Pretrained Transformer Language Models for Russian で詳細に記載されています。
このモデルは SberDevices によって学習されました。
T5ベースのアーキテクチャを持ち、24層と1024の隠れ層サイズを持っています。詳細は config.json
を参照してください。
このモデルは、UL2のような7つのデノイザーの混合データで学習されていますが、いくつかの違いがあります (https://arxiv.org/abs/2205.05131)。
ロシア語コーパス (300GB) で学習されており、データセットは ruT5モデルと同じです。
Bbpeトークナイザーを使用しており、50257 + 特殊トークン107です。プレフィックストークンは '<LM>', '<SC1>',.. '<SC6>' です。
学習の前半は、全データセットの小さな部分 (1%, 3GB) で、各タスクにプレフィックスを付けずに学習されました。
RSGについては、T5論文に記載されている通りに学習されました。まず、すべてのタスクに対してマルチタスク学習を行い、その後、最適なチェックポイントを選択してさらに学習を行いました。RSGの提出はこちら https://russiansuperglue.com/login/submit_info/2060
合計学習時間は、160台のV100 GPUで約35日間 + 80台のA100 GPUで5日間でした。
🚀 クイックスタート
このセクションでは、FRED-T5 large 820Mモデルの基本的な使い方を説明します。
💻 使用例
基本的な使用法
import torch
from transformers import GPT2Tokenizer, T5ForConditionalGeneration
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained('ai-forever/FRED-T5-1.7B')
device='cuda'
model.to(device)
lm_text='<LM>Принялся Кутузов рассказывать свою историю как он сюда попал. Началось'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))
lm_text='<SC1>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))
lm_text='<SC5>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True,max_length=100)
print(tokenizer.decode(outputs[0][1:]))
👥 作者
- NLPコアチームRnD Telegramチャンネル:
- Dmitry Zmitrovich
- Andrei Kalmykov
- Vitaly Kadulin
- Mikhail Novikov
- Alexey Khoroshilov
Salute AI Community
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で公開されています。
📖 引用
@misc{zmitrovich2023family,
title={A Family of Pretrained Transformer Language Models for Russian},
author={Dmitry Zmitrovich and Alexander Abramov and Andrey Kalmykov and Maria Tikhonova and Ekaterina Taktasheva and Danil Astafurov and Mark Baushenko and Artem Snegirev and Tatiana Shavrina and Sergey Markov and Vladislav Mikhailov and Alena Fenogenova},
year={2023},
eprint={2309.10931},
archivePrefix={arXiv},
primaryClass={cs.CL}
}