rubert_ext_sum_gazeta開源模型 - 免費部署實現俄語新聞文本抽取式摘要生成

首頁

Rubert Ext Sum Gazeta

由IlyaGusev開發

基於rubert-base-cased構建的抽取式摘要生成模型，專門針對俄語新聞文本優化

文本生成

Transformers

其他開源協議:Apache-2.0 #俄語摘要生成 #非司法破產分析 #Gazeta數據優化

下載量 38

發布時間 : 3/2/2022

模型概述

該模型是一個抽取式摘要生成模型，基於rubert-base-cased架構構建，專門用於處理俄語新聞文本的自動摘要任務。

模型特點

俄語新聞優化

專門針對Gazeta.ru新聞文章進行優化，在俄語新聞摘要任務上表現良好

抽取式摘要

採用抽取式摘要方法，從原文中提取關鍵句子形成摘要

基於BERT架構

基於強大的rubert-base-cased模型構建，繼承了BERT的優秀語言理解能力

模型能力

俄語文本處理

新聞摘要生成

關鍵信息提取

使用案例

新聞媒體

新聞自動摘要

為新聞網站自動生成文章摘要，提高讀者閱讀效率

內容分析

從大量新聞文本中提取關鍵信息，用於內容分析和趨勢監測

🚀 RuBERTExtSumGazeta

本項目基於 rubert-base-cased 模型，開發了用於抽取式文本摘要的模型，可有效處理相關文本的摘要提取任務。

🚀 快速開始

如何使用

你可以通過以下 Colab 鏈接體驗：link

import razdel
from transformers import AutoTokenizer, BertForTokenClassification

model_name = "IlyaGusev/rubert_ext_sum_gazeta"

tokenizer = AutoTokenizer.from_pretrained(model_name)
sep_token = tokenizer.sep_token
sep_token_id = tokenizer.sep_token_id

model = BertForTokenClassification.from_pretrained(model_name)

article_text = "..."
sentences = [s.text for s in razdel.sentenize(article_text)]
article_text = sep_token.join(sentences)

inputs = tokenizer(
    [article_text],
    max_length=500,
    padding="max_length",
    truncation=True,
    return_tensors="pt",
)
sep_mask = inputs["input_ids"][0] == sep_token_id

# Fix token_type_ids
current_token_type_id = 0 
for pos, input_id in enumerate(inputs["input_ids"][0]):
    inputs["token_type_ids"][0][pos] = current_token_type_id
    if input_id == sep_token_id:
        current_token_type_id = 1 - current_token_type_id

# Infer model
with torch.no_grad(): 
    outputs = model(**inputs) 
logits = outputs.logits[0, :, 1]

# Choose sentences 
logits = logits[sep_mask]
logits, indices = logits.sort(descending=True)
logits, indices = logits.cpu().tolist(), indices.cpu().tolist()
pairs = list(zip(logits, indices))
pairs = pairs[:3]
indices = list(sorted([idx for _, idx in pairs]))
summary = " ".join([sentences[idx] for idx in indices])
print(summary)

✨ 主要特性

本模型基於 rubert-base-cased 構建，可實現抽取式文本摘要功能。

📦 安裝指南

文檔未提供具體安裝步驟，暫不展示。

💻 使用示例

基礎用法

import razdel
from transformers import AutoTokenizer, BertForTokenClassification

model_name = "IlyaGusev/rubert_ext_sum_gazeta"

tokenizer = AutoTokenizer.from_pretrained(model_name)
sep_token = tokenizer.sep_token
sep_token_id = tokenizer.sep_token_id

model = BertForTokenClassification.from_pretrained(model_name)

article_text = "..."
sentences = [s.text for s in razdel.sentenize(article_text)]
article_text = sep_token.join(sentences)

inputs = tokenizer(
    [article_text],
    max_length=500,
    padding="max_length",
    truncation=True,
    return_tensors="pt",
)
sep_mask = inputs["input_ids"][0] == sep_token_id

# Fix token_type_ids
current_token_type_id = 0 
for pos, input_id in enumerate(inputs["input_ids"][0]):
    inputs["token_type_ids"][0][pos] = current_token_type_id
    if input_id == sep_token_id:
        current_token_type_id = 1 - current_token_type_id

# Infer model
with torch.no_grad(): 
    outputs = model(**inputs) 
logits = outputs.logits[0, :, 1]

# Choose sentences 
logits = logits[sep_mask]
logits, indices = logits.sort(descending=True)
logits, indices = logits.cpu().tolist(), indices.cpu().tolist()
pairs = list(zip(logits, indices))
pairs = pairs[:3]
indices = list(sorted([idx for _, idx in pairs]))
summary = " ".join([sentences[idx] for idx in indices])
print(summary)