rut5_base_sum_gazeta Open Source Model - Free Deployment, Efficient Generation of Russian News Summaries

Rut5 Base Sum Gazeta

Developed by IlyaGusev

A Russian abstractive summarization model based on rut5-base, optimized for Russian news summarization tasks

OtherOpen Source License:Apache-2.0 #Russian text summarization #T5 architecture optimization #News summarization generation

Downloads 3,640

Release Time : 3/2/2022

Model Overview

This model is a Russian text summarization generation model based on the T5 architecture, primarily used to generate concise and accurate summaries from Russian news texts.

Model Features

Russian language optimization

Specially trained and optimized for Russian texts

Abstractive summarization

Capable of generating new summary texts rather than simply extracting original sentences

News domain specialization

Trained on the Gazeta news dataset, particularly suitable for news text summarization

Model Capabilities

Russian text comprehension

News summarization generation

Long text compression

Use Cases

News media

Automatic news summarization

Automatically generates brief summaries of news articles for news organizations

Achieved R-1-f score of 32.2 on the Gazeta test set

Content aggregation

News aggregation summarization

Generates summaries for multiple related articles on news aggregation platforms

🚀 RuT5SumGazeta

This is a model for abstractive summarization of Russian texts, built upon rut5-base. It offers an effective solution for summarizing Russian documents, helping users quickly obtain key information from large - scale text data.

🚀 Quick Start

Colab Link

You can quickly start using this model through Colab: link

Code Example

from transformers import AutoTokenizer, T5ForConditionalGeneration

model_name = "IlyaGusev/rut5_base_sum_gazeta"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

article_text = "..."

input_ids = tokenizer(
    [article_text],
    max_length=600,
    add_special_tokens=True,
    padding="max_length",
    truncation=True,
    return_tensors="pt"
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids,
    no_repeat_ngram_size=4
)[0]

summary = tokenizer.decode(output_ids, skip_special_tokens=True)
print(summary)

✨ Features

Based on rut5 - base: Leveraging the powerful features of [rut5 - base](https://huggingface.co/cointegrated/rut5 - base), it has good performance in Russian text processing.
Abstractive Summarization: Capable of generating abstractive summaries, extracting key information from the text and presenting it in a concise way.

📦 Installation

The installation steps are mainly reflected in the code example above. You need to install relevant Python libraries such as transformers and datasets. You can use the following command to install:

pip install transformers datasets

💻 Usage Examples

Basic Usage

from transformers import AutoTokenizer, T5ForConditionalGeneration

model_name = "IlyaGusev/rut5_base_sum_gazeta"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

article_text = "..."

input_ids = tokenizer(
    [article_text],
    max_length=600,
    add_special_tokens=True,
    padding="max_length",
    truncation=True,
    return_tensors="pt"
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids,
    no_repeat_ngram_size=4
)[0]

summary = tokenizer.decode(output_ids, skip_special_tokens=True)
print(summary)

Advanced Usage

import json
import torch
from transformers import AutoTokenizer, T5ForConditionalGeneration
from datasets import load_dataset


def gen_batch(inputs, batch_size):
    batch_start = 0
    while batch_start < len(inputs):
        yield inputs[batch_start: batch_start + batch_size]
        batch_start += batch_size


def predict(
    model_name,
    input_records,
    output_file,
    max_source_tokens_count=600,
    batch_size=8
):
    device = "cuda" if torch.cuda.is_available() else "cpu"

    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = T5ForConditionalGeneration.from_pretrained(model_name).to(device)
    
    predictions = []
    for batch in gen_batch(input_records, batch_size):
        texts = [r["text"] for r in batch]
        input_ids = tokenizer(
            texts,                                                                                                     
            add_special_tokens=True,
            max_length=max_source_tokens_count,
            padding="max_length",
            truncation=True,
            return_tensors="pt"
        )["input_ids"].to(device)
        
        output_ids = model.generate(
            input_ids=input_ids,
            no_repeat_ngram_size=4
        )
        summaries = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
        for s in summaries:
            print(s)
        predictions.extend(summaries)
    with open(output_file, "w") as w:
        for p in predictions:
            w.write(p.strip().replace("\n", " ") + "\n")

gazeta_test = load_dataset('IlyaGusev/gazeta', script_version="v1.0")["test"]
predict("IlyaGusev/rut5_base_sum_gazeta", list(gazeta_test), "t5_predictions.txt")

📚 Documentation

Training Data

Dataset: Gazeta

Training Procedure

Training script: train.py
Config: t5_training_config.json

Eval Results

Gazeta v1

Model	R - 1 - f	R - 2 - f	R - L - f	chrF	METEOR	BLEU	Avg char length
mbart_ru_sum_gazeta	32.4	14.3	28.0	39.7	26.4	12.1	371
rut5_base_sum_gazeta	32.2	14.4	28.1	39.8	25.7	12.3	330
rugpt3medium_sum_gazeta	26.2	7.7	21.7	33.8	18.2	4.3	244

Gazeta v2

Model	R - 1 - f	R - 2 - f	R - L - f	chrF	METEOR	BLEU	Avg char length
mbart_ru_sum_gazeta	28.7	11.1	24.4	37.3	22.7	9.4	373
rut5_base_sum_gazeta	28.6	11.1	24.5	37.2	22.0	9.4	331
rugpt3medium_sum_gazeta	24.1	6.5	19.8	32.1	16.3	3.6	242

Evaluation Script

Script: evaluate.py
Flags: --language ru --tokenize - after --lower

📄 License

This project is licensed under the [apache - 2.0](https://www.apache.org/licenses/LICENSE - 2.0) license.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご