FRED - T5 - largeオープンソースロシア語言語モデル - 無料で様々なテキスト生成タスクをサポート

ホーム

FRED T5 Large

ai-foreverによって開発

T5アーキテクチャに基づくロシア語事前学習言語モデルで、UL2に似た7種類のノイズリダクター混合トレーニング戦略を採用し、様々なテキスト生成タスクをサポートします。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #ロシア語テキスト生成 #マルチタスクノイズリダクション #大規模事前学習

ダウンロード数 998

リリース時間 : 2/28/2023

モデル概要

ロシア語向けの事前学習Transformer言語モデルで、主にテキスト生成とノイズリダクションタスクに使用され、様々なプレフィックストークンによる生成内容の制御をサポートします。

モデル特徴

マルチタスクノイズリダクショントレーニング

UL2に似た7種類のノイズリダクター混合トレーニング戦略を採用し、ノイズテキスト処理能力を強化

プレフィックストークン制御

様々なプレフィックストークン（例：<LM>、<SC1>-<SC6>）による生成内容とタスクタイプの制御をサポート

大規模ロシア語トレーニング

300GBのロシア語コーパスでトレーニングされ、ruT5モデルと同じデータセットを使用

モデル能力

ロシア語テキスト生成

テキストノイズリダクション

プレフィックス制御生成

ストーリー継続

テキスト補完

使用事例

テキスト生成

ストーリー継続

<LM>プレフィックスを使用したオープンエンドテキスト生成

モデルは与えられた冒頭に基づいて一貫性のあるストーリー内容を継続生成できる

テキスト補完

<SC1>プレフィックスを使用したテキスト補完タスク

モデルは欠落したテキスト断片を正確に予測・補完できる

ノイズ処理

ノイズテキスト復元

ノイズや欠落を含むテキスト入力を処理

モデルは元のテキスト内容を効果的に復元できる

🚀 FRED-T5 large 820M (Full-scale Russian Enhanced Denoisers T5)

このモデルのアーキテクチャ設計、事前学習、評価については、我々のプレプリント A Family of Pretrained Transformer Language Models for Russian で詳細に記載されています。

このモデルは SberDevices によって学習されました。

T5ベースのアーキテクチャを持ち、24層と1024の隠れ層サイズを持っています。詳細は config.json を参照してください。

このモデルは、UL2のような7つのデノイザーの混合データで学習されていますが、いくつかの違いがあります (https://arxiv.org/abs/2205.05131)。

ロシア語コーパス (300GB) で学習されており、データセットは ruT5モデルと同じです。

Bbpeトークナイザーを使用しており、50257 + 特殊トークン107です。プレフィックストークンは '<LM>', '<SC1>',.. '<SC6>' です。

学習の前半は、全データセットの小さな部分 (1%, 3GB) で、各タスクにプレフィックスを付けずに学習されました。

RSGについては、T5論文に記載されている通りに学習されました。まず、すべてのタスクに対してマルチタスク学習を行い、その後、最適なチェックポイントを選択してさらに学習を行いました。RSGの提出はこちら https://russiansuperglue.com/login/submit_info/2060

合計学習時間は、160台のV100 GPUで約35日間 + 80台のA100 GPUで5日間でした。

🚀 クイックスタート

このセクションでは、FRED-T5 large 820Mモデルの基本的な使い方を説明します。

💻 使用例

基本的な使用法

import torch
from transformers import GPT2Tokenizer, T5ForConditionalGeneration 
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained('ai-forever/FRED-T5-1.7B')
device='cuda'
model.to(device)

#Prefix <LM>
lm_text='<LM>Принялся Кутузов рассказывать свою историю как он сюда попал. Началось'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))

# print result: , как водится, с того, что он был в плену.</s>

#Prefix <SC1>
lm_text='<SC1>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))

#print result: '<extra_id_0>, как он жил</s>'

# Prefix <SC5>
lm_text='<SC5>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True,max_length=100)
print(tokenizer.decode(outputs[0][1:]))

#print result: '<extra_id_0> </s>'

👥 作者

NLPコアチームRnD Telegramチャンネル:
- Dmitry Zmitrovich
- Andrei Kalmykov
- Vitaly Kadulin
- Mikhail Novikov
- Alexey Khoroshilov

Salute AI Community

📄 ライセンス

このプロジェクトは、Apache-2.0ライセンスの下で公開されています。

📖 引用

@misc{zmitrovich2023family,
      title={A Family of Pretrained Transformer Language Models for Russian}, 
      author={Dmitry Zmitrovich and Alexander Abramov and Andrey Kalmykov and Maria Tikhonova and Ekaterina Taktasheva and Danil Astafurov and Mark Baushenko and Artem Snegirev and Tatiana Shavrina and Sergey Markov and Vladislav Mikhailov and Alena Fenogenova},
      year={2023},
      eprint={2309.10931},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}