🚀 FRED - T5 large 820M(全規模俄語增強去噪器T5)
FRED - T5 large 820M是基於T5架構的預訓練Transformer語言模型,專為俄語設計。該模型在俄語語言處理任務中表現出色,可用於多種自然語言處理應用。
🚀 快速開始
模型的架構設計、預訓練和評估等詳細信息記錄在我們的預印本中:A Family of Pretrained Transformer Language Models for Russian。該模型由 SberDevices 訓練。
✨ 主要特性
- 架構:基於T5架構,擁有24層和1024的隱藏層大小,更多詳細信息可查看
config.json
。
- 訓練方式:在7種去噪器的混合任務上進行訓練,類似於UL2,但存在一些差異(https://arxiv.org/abs/2205.05131)。
- 訓練數據:在300GB的俄語語料庫上進行訓練,數據集與ruT5模型相同。
- 分詞器:採用Bbpe分詞器,有50257個詞元 + 107個特殊詞元。前綴詞元包括 '<LM>'、'<SC1>'、...、'<SC6>'。
- 訓練策略:前半段時間在所有數據集的小部分(1%,3GB)上訓練,且每個任務不使用前綴。對於RSG,訓練方式如T5論文所述,先進行多任務訓練,然後選取最佳檢查點進一步訓練。
- 訓練時長:在160個V100 GPU上訓練約35天,在80個A100 GPU上訓練約5天。
📦 安裝指南
此部分原文檔未提供具體安裝命令,故跳過。
💻 使用示例
基礎用法
import torch
from transformers import GPT2Tokenizer, T5ForConditionalGeneration
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained('ai-forever/FRED-T5-1.7B')
device='cuda'
model.to(device)
lm_text='<LM>Принялся Кутузов рассказывать свою историю как он сюда попал. Началось'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))
lm_text='<SC1>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))
lm_text='<SC5>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True,max_length=100)
print(tokenizer.decode(outputs[0][1:]))
📚 詳細文檔
作者信息
- NLP核心研發團隊 Telegram頻道:
- Dmitry Zmitrovich
- Andrei Kalmykov
- Vitaly Kadulin
- Mikhail Novikov
- Alexey Khoroshilov
Salute AI社區。
引用信息
@misc{zmitrovich2023family,
title={A Family of Pretrained Transformer Language Models for Russian},
author={Dmitry Zmitrovich and Alexander Abramov and Andrey Kalmykov and Maria Tikhonova and Ekaterina Taktasheva and Danil Astafurov and Mark Baushenko and Artem Snegirev and Tatiana Shavrina and Sergey Markov and Vladislav Mikhailov and Alena Fenogenova},
year={2023},
eprint={2309.10931},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
該模型採用Apache - 2.0許可證。