🚀 ruT5-base_headline_generation
這是一個基於ruT5-base的模型,專為俄語新聞標題生成而微調,在短新聞文本上表現出色,也能處理長文章。
🚀 快速開始
本模型可用於俄語新聞標題的生成。以下是使用示例:
from transformers import AutoTokenizer, T5ForConditionalGeneration
model_name = "wanderer-msk/ruT5-base_headline_generation"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)
news_text = """Земляне продолжают осваивать Марс.
Колонисты уже посадили на красной планете 42 яблони."""
model_input = tokenizer(
news_text,
truncation=True,
max_length=1024,
return_tensors="pt"
)
model_output = model.generate(model_input["input_ids"])
news_headline = tokenizer.decode(
model_output.squeeze(),
skip_special_tokens=True
)
print(news_headline)
✨ 主要特性
- 專為俄語新聞標題生成而設計,基於
ai-forever/ruT5-base
模型微調。
- 在短新聞文本(128個單詞及以下)上表現最佳,但對較長文章也有不錯的效果。
- 生成的摘要式標題平均包含6 - 11個單詞。
📦 安裝指南
原文檔未提及安裝步驟,若使用該模型,可參考transformers
庫的安裝方式:
pip install transformers
📚 詳細文檔
模型詳情
該模型是用於俄語新聞標題生成的T5 Base模型。它針對短新聞文本(128個單詞或更少)進行了微調以獲得最佳性能,但在較長文章上也有不錯的指標。模型生成的摘要式標題平均包含6 - 11個單詞。
基礎模型:ai-forever/ruT5-base
訓練詳情
測試指標
- Rouge1: 40.24
- Rouge2: 23.05
- RougeL: 37.57
💻 使用示例
基礎用法
from transformers import AutoTokenizer, T5ForConditionalGeneration
model_name = "wanderer-msk/ruT5-base_headline_generation"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)
news_text = """Земляне продолжают осваивать Марс.
Колонисты уже посадили на красной планете 42 яблони."""
model_input = tokenizer(
news_text,
truncation=True,
max_length=1024,
return_tensors="pt"
)
model_output = model.generate(model_input["input_ids"])
news_headline = tokenizer.decode(
model_output.squeeze(),
skip_special_tokens=True
)
print(news_headline)