🚀 FRED - T5 1.7B (全量俄語增強去噪器T5)
FRED - T5 1.7B是一款基於T5架構的預訓練語言模型,專為俄語設計。該模型在俄語語料庫上進行訓練,可用於多種自然語言處理任務。其相關的模型架構設計、預訓練和評估等內容均記錄在我們的預印本論文中。
🚀 快速開始
FRED - T5 1.7B模型的架構設計、預訓練和評估等詳細信息記錄在我們的預印本論文中:A Family of Pretrained Transformer Language Models for Russian。
該模型由 SberDevices 訓練。
✨ 主要特性
- 架構基礎:基於T5架構,具有24層和1536的隱藏層大小,更多詳細信息可查看
config.json
文件。
- 訓練方式:模型在7種去噪器的混合設置下進行訓練,類似於UL2,但存在一些差異(參考論文:https://arxiv.org/abs/2205.05131 )。
- 訓練語料:在300GB的俄語語料庫上進行訓練,該數據集與ruT5模型使用的數據集相同。
- 分詞器:使用Bbpe分詞器,包含50257個詞元 + 107個特殊詞元。前綴詞元有:
'<LM>'
、'<SC1>'
、'...'
、'<SC6>'
。
- 訓練過程:前半段時間在所有數據集的一小部分(1%,即3GB)上進行訓練,且每個任務不使用前綴。對於RSG,按照T5論文中的描述進行訓練,先對所有任務進行多任務訓練,然後選取每個任務的最佳檢查點進一步訓練。RSG提交地址:https://russiansuperglue.com/login/submit_info/1936 。
- 訓練時長:在112個A100 GPU上總共訓練了約45天。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
基礎用法
import torch
from transformers import GPT2Tokenizer, T5ForConditionalGeneration
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained('ai-forever/FRED-T5-1.7B')
device='cuda'
model.to(device)
lm_text='<LM>Принялся Кутузов рассказывать свою историю как он сюда попал. Началось'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))
lm_text='<SC1>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))
lm_text='<SC5>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
tokenizer.decode(outputs[0][1:])
高級用法
文檔未提及高級用法示例,暫不提供。
📚 詳細文檔
文檔未提供更詳細的說明,暫不提供。
🔧 技術細節
模型基於T5架構,具有24層和1536的隱藏層大小。訓練過程結合了7種去噪器的混合設置,在300GB的俄語語料庫上進行訓練。前半段在小部分數據集上訓練且不使用前綴,對於RSG按照T5論文的方式訓練。更多詳細信息可參考 config.json
文件以及預印本論文 A Family of Pretrained Transformer Language Models for Russian。
📄 許可證
本模型採用Apache - 2.0許可證。
👥 作者
- NLP核心研發團隊 Telegram頻道:
- Dmitry Zmitrovich
- Andrei Kalmykov
- Vitaly Kadulin
- Mikhail Novikov
- Alexey Khoroshilov
Salute AI社區。
📖 引用
如果您使用了本模型,請引用以下論文:
@misc{zmitrovich2023family,
title={A Family of Pretrained Transformer Language Models for Russian},
author={Dmitry Zmitrovich and Alexander Abramov and Andrey Kalmykov and Maria Tikhonova and Ekaterina Taktasheva and Danil Astafurov and Mark Baushenko and Artem Snegirev and Tatiana Shavrina and Sergey Markov and Vladislav Mikhailov and Alena Fenogenova},
year={2023},
eprint={2309.10931},
archivePrefix={arXiv},
primaryClass={cs.CL}
}