🚀 FRED - T5 large 820M(全规模俄语增强去噪器T5)
FRED - T5 large 820M是基于T5架构的预训练Transformer语言模型,专为俄语设计。该模型在俄语语言处理任务中表现出色,可用于多种自然语言处理应用。
🚀 快速开始
模型的架构设计、预训练和评估等详细信息记录在我们的预印本中:A Family of Pretrained Transformer Language Models for Russian。该模型由 SberDevices 训练。
✨ 主要特性
- 架构:基于T5架构,拥有24层和1024的隐藏层大小,更多详细信息可查看
config.json
。
- 训练方式:在7种去噪器的混合任务上进行训练,类似于UL2,但存在一些差异(https://arxiv.org/abs/2205.05131)。
- 训练数据:在300GB的俄语语料库上进行训练,数据集与ruT5模型相同。
- 分词器:采用Bbpe分词器,有50257个词元 + 107个特殊词元。前缀词元包括 '<LM>'、'<SC1>'、...、'<SC6>'。
- 训练策略:前半段时间在所有数据集的小部分(1%,3GB)上训练,且每个任务不使用前缀。对于RSG,训练方式如T5论文所述,先进行多任务训练,然后选取最佳检查点进一步训练。
- 训练时长:在160个V100 GPU上训练约35天,在80个A100 GPU上训练约5天。
📦 安装指南
此部分原文档未提供具体安装命令,故跳过。
💻 使用示例
基础用法
import torch
from transformers import GPT2Tokenizer, T5ForConditionalGeneration
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained('ai-forever/FRED-T5-1.7B')
device='cuda'
model.to(device)
lm_text='<LM>Принялся Кутузов рассказывать свою историю как он сюда попал. Началось'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))
lm_text='<SC1>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))
lm_text='<SC5>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True,max_length=100)
print(tokenizer.decode(outputs[0][1:]))
📚 详细文档
作者信息
- NLP核心研发团队 Telegram频道:
- Dmitry Zmitrovich
- Andrei Kalmykov
- Vitaly Kadulin
- Mikhail Novikov
- Alexey Khoroshilov
Salute AI社区。
引用信息
@misc{zmitrovich2023family,
title={A Family of Pretrained Transformer Language Models for Russian},
author={Dmitry Zmitrovich and Alexander Abramov and Andrey Kalmykov and Maria Tikhonova and Ekaterina Taktasheva and Danil Astafurov and Mark Baushenko and Artem Snegirev and Tatiana Shavrina and Sergey Markov and Vladislav Mikhailov and Alena Fenogenova},
year={2023},
eprint={2309.10931},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
该模型采用Apache - 2.0许可证。