🚀 rut5-base-multitask
This is a smaller model derived from google/mt5-base, retaining only some Russian and English embeddings, and fine - tuned for multiple language - related tasks.
🚀 Quick Start
This is a smaller version of the google/mt5-base, with only some Russian and English embeddings remaining.
More details can be found in a Russian post: https://habr.com/ru/post/581932/.
✨ Features
The model has been fine - tuned for several tasks with sentences or short paragraphs:
- Translation (
translate ru-en
and translate en-ru
)
- Paraphrasing (
paraphrase
)
- Filling gaps in a text (
fill
). The gaps can be denoted as ___
or _3_
, where 3
is the approximate number of words that should be inserted.
- Restoring the text from a noisy bag of words (
assemble
)
- Simplification of texts (
simplify
)
- Dialogue response generation (
reply
based on fiction and answer
based on online forums)
- Open - book question answering (
comprehend
)
- Asking questions about a text (
ask
)
- News title generation (
headline
)
For each task, the task name is joined with the input text by the |
separator.
📦 Installation
The model can be run with the following code:
import torch
from transformers import T5ForConditionalGeneration, T5Tokenizer
tokenizer = T5Tokenizer.from_pretrained("cointegrated/rut5-base-multitask")
model = T5ForConditionalGeneration.from_pretrained("cointegrated/rut5-base-multitask")
def generate(text, **kwargs):
inputs = tokenizer(text, return_tensors='pt')
with torch.no_grad():
hypotheses = model.generate(**inputs, num_beams=5, **kwargs)
return tokenizer.decode(hypotheses[0], skip_special_tokens=True)
💻 Usage Examples
Basic Usage
print(generate('translate ru-en | Каждый охотник желает знать, где сидит фазан.'))
print(generate('paraphrase | Каждый охотник желает знать, где сидит фазан.',
encoder_no_repeat_ngram_size=1, repetition_penalty=0.5, no_repeat_ngram_size=1))
print(generate('fill | Каждый охотник _3_, где сидит фазан.'))
print(generate('assemble | охотник каждый знать фазан сидит'))
print(generate('simplify | Местным продуктом-специалитетом с защищённым географическим наименованием по происхождению считается люнебургский степной барашек.', max_length=32))
print(generate('reply | Помогите мне закадрить девушку'))
print(generate('answer | Помогите мне закадрить девушку'))
print(generate("comprehend | На фоне земельного конфликта между владельцами овец и ранчеро разворачивается история любви овцевода Моргана Лейна, "
"прибывшего в США из Австралии, и Марии Синглетон, владелицы богатого скотоводческого ранчо. Вопрос: откуда приехал Морган?"))
print(generate("ask | На фоне земельного конфликта между владельцами овец и ранчеро разворачивается история любви овцевода Моргана Лейна, "
"прибывшего в США из Австралии, и Марии Синглетон, владелицы богатого скотоводческого ранчо.", max_length=32))
print(generate("headline | На фоне земельного конфликта между владельцами овец и ранчеро разворачивается история любви овцевода Моргана Лейна, "
"прибывшего в США из Австралии, и Марии Синглетон, владелицы богатого скотоводческого ранчо.", max_length=32))
Advanced Usage
📄 License
The model is under the MIT license.
Property |
Details |
Model Type |
A smaller version of google/mt5-base with Russian and English embeddings |
Training Data |
Not specified |
⚠️ Important Note
It is strongly recommended that you fine tune the model for your own task.
💡 Usage Tip
For each task, join the task name with the input text by the |
separator.