🚀 ruT5-base_headline_generation
这是一个基于ruT5-base的模型,专为俄语新闻标题生成而微调,在短新闻文本上表现出色,也能处理长文章。
🚀 快速开始
本模型可用于俄语新闻标题的生成。以下是使用示例:
from transformers import AutoTokenizer, T5ForConditionalGeneration
model_name = "wanderer-msk/ruT5-base_headline_generation"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)
news_text = """Земляне продолжают осваивать Марс.
Колонисты уже посадили на красной планете 42 яблони."""
model_input = tokenizer(
news_text,
truncation=True,
max_length=1024,
return_tensors="pt"
)
model_output = model.generate(model_input["input_ids"])
news_headline = tokenizer.decode(
model_output.squeeze(),
skip_special_tokens=True
)
print(news_headline)
✨ 主要特性
- 专为俄语新闻标题生成而设计,基于
ai-forever/ruT5-base
模型微调。
- 在短新闻文本(128个单词及以下)上表现最佳,但对较长文章也有不错的效果。
- 生成的摘要式标题平均包含6 - 11个单词。
📦 安装指南
原文档未提及安装步骤,若使用该模型,可参考transformers
库的安装方式:
pip install transformers
📚 详细文档
模型详情
该模型是用于俄语新闻标题生成的T5 Base模型。它针对短新闻文本(128个单词或更少)进行了微调以获得最佳性能,但在较长文章上也有不错的指标。模型生成的摘要式标题平均包含6 - 11个单词。
基础模型:ai-forever/ruT5-base
训练详情
测试指标
- Rouge1: 40.24
- Rouge2: 23.05
- RougeL: 37.57
💻 使用示例
基础用法
from transformers import AutoTokenizer, T5ForConditionalGeneration
model_name = "wanderer-msk/ruT5-base_headline_generation"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)
news_text = """Земляне продолжают осваивать Марс.
Колонисты уже посадили на красной планете 42 яблони."""
model_input = tokenizer(
news_text,
truncation=True,
max_length=1024,
return_tensors="pt"
)
model_output = model.generate(model_input["input_ids"])
news_headline = tokenizer.decode(
model_output.squeeze(),
skip_special_tokens=True
)
print(news_headline)