🚀 FRED-T5 1.7B (Full-scale Russian Enhanced Denoisers T5)
このモデルのアーキテクチャ設計、事前学習、評価については、我々のプレプリント A Family of Pretrained Transformer Language Models for Russian で詳細に記載されています。
このモデルは SberDevices によって訓練されました。
アーキテクチャはT5に基づいています。
24層で隠れ層のサイズは1536です。詳細は config.json
を参照してください。
このモデルは、UL2のような7つのデノイザーの混合データセットで訓練されていますが、いくつかの違いがあります (https://arxiv.org/abs/2205.05131)。
ロシア語コーパス (300GB) で訓練されています。データセットは ruT5モデルと同じです。
Bbpeトークナイザーを使用しています。50257 + 特殊トークン107。プレフィックストークン: '<LM>', '<SC1>',.. '<SC6>'
訓練の前半は、すべてのデータセットの小さな部分 (1%, 3GB) で、各タスクにプレフィックスを付けずに訓練されました。
RSGに関しては、T5論文に記載されている通りに訓練されました。まず、すべてのタスクに対してマルチタスク学習を行いました。その後、タスクに最適なチェックポイントを選択し、さらに訓練を行いました。
RSGの提出はこちらから行えます https://russiansuperglue.com/login/submit_info/1936
合計訓練時間は、112台のA100 GPUで約45日間でした。
🚀 クイックスタート
💻 使用例
基本的な使用法
import torch
from transformers import GPT2Tokenizer, T5ForConditionalGeneration
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained('ai-forever/FRED-T5-1.7B')
device='cuda'
model.to(device)
lm_text='<LM>Принялся Кутузов рассказывать свою историю как он сюда попал. Началось'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))
lm_text='<SC1>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))
lm_text='<SC5>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
tokenizer.decode(outputs[0][1:])
🔧 技術詳細
プロパティ |
詳細 |
モデルタイプ |
アーキテクチャはT5に基づいており、24層で隠れ層のサイズは1536です。 |
訓練データ |
ロシア語コーパス (300GB) で訓練されています。データセットは ruT5モデルと同じです。 |
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
👥 作者
- NLPコアチームRnD Telegramチャンネル:
- Dmitry Zmitrovich
- Andrei Kalmykov
- Vitaly Kadulin
- Mikhail Novikov
- Alexey Khoroshilov
Salute AI Community
📖 引用
@misc{zmitrovich2023family,
title={A Family of Pretrained Transformer Language Models for Russian},
author={Dmitry Zmitrovich and Alexander Abramov and Andrey Kalmykov and Maria Tikhonova and Ekaterina Taktasheva and Danil Astafurov and Mark Baushenko and Artem Snegirev and Tatiana Shavrina and Sergey Markov and Vladislav Mikhailov and Alena Fenogenova},
year={2023},
eprint={2309.10931},
archivePrefix={arXiv},
primaryClass={cs.CL}
}