rubert_ext_sum_gazeta开源模型 - 免费部署实现俄语新闻文本抽取式摘要生成

首页

Rubert Ext Sum Gazeta

由 IlyaGusev 开发

基于rubert-base-cased构建的抽取式摘要生成模型，专门针对俄语新闻文本优化

文本生成

Transformers

其他开源协议:Apache-2.0 #俄语摘要生成 #非司法破产分析 #Gazeta数据优化

下载量 38

发布时间 : 3/2/2022

模型简介

该模型是一个抽取式摘要生成模型，基于rubert-base-cased架构构建，专门用于处理俄语新闻文本的自动摘要任务。

模型特点

俄语新闻优化

专门针对Gazeta.ru新闻文章进行优化，在俄语新闻摘要任务上表现良好

抽取式摘要

采用抽取式摘要方法，从原文中提取关键句子形成摘要

基于BERT架构

基于强大的rubert-base-cased模型构建，继承了BERT的优秀语言理解能力

模型能力

俄语文本处理

新闻摘要生成

关键信息提取

使用案例

新闻媒体

新闻自动摘要

为新闻网站自动生成文章摘要，提高读者阅读效率

内容分析

从大量新闻文本中提取关键信息，用于内容分析和趋势监测

🚀 RuBERTExtSumGazeta

本项目基于 rubert-base-cased 模型，开发了用于抽取式文本摘要的模型，可有效处理相关文本的摘要提取任务。

🚀 快速开始

如何使用

你可以通过以下 Colab 链接体验：link

import razdel
from transformers import AutoTokenizer, BertForTokenClassification

model_name = "IlyaGusev/rubert_ext_sum_gazeta"

tokenizer = AutoTokenizer.from_pretrained(model_name)
sep_token = tokenizer.sep_token
sep_token_id = tokenizer.sep_token_id

model = BertForTokenClassification.from_pretrained(model_name)

article_text = "..."
sentences = [s.text for s in razdel.sentenize(article_text)]
article_text = sep_token.join(sentences)

inputs = tokenizer(
    [article_text],
    max_length=500,
    padding="max_length",
    truncation=True,
    return_tensors="pt",
)
sep_mask = inputs["input_ids"][0] == sep_token_id

# Fix token_type_ids
current_token_type_id = 0 
for pos, input_id in enumerate(inputs["input_ids"][0]):
    inputs["token_type_ids"][0][pos] = current_token_type_id
    if input_id == sep_token_id:
        current_token_type_id = 1 - current_token_type_id

# Infer model
with torch.no_grad(): 
    outputs = model(**inputs) 
logits = outputs.logits[0, :, 1]

# Choose sentences 
logits = logits[sep_mask]
logits, indices = logits.sort(descending=True)
logits, indices = logits.cpu().tolist(), indices.cpu().tolist()
pairs = list(zip(logits, indices))
pairs = pairs[:3]
indices = list(sorted([idx for _, idx in pairs]))
summary = " ".join([sentences[idx] for idx in indices])
print(summary)

✨ 主要特性

本模型基于 rubert-base-cased 构建，可实现抽取式文本摘要功能。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

基础用法

import razdel
from transformers import AutoTokenizer, BertForTokenClassification

model_name = "IlyaGusev/rubert_ext_sum_gazeta"

tokenizer = AutoTokenizer.from_pretrained(model_name)
sep_token = tokenizer.sep_token
sep_token_id = tokenizer.sep_token_id

model = BertForTokenClassification.from_pretrained(model_name)

article_text = "..."
sentences = [s.text for s in razdel.sentenize(article_text)]
article_text = sep_token.join(sentences)

inputs = tokenizer(
    [article_text],
    max_length=500,
    padding="max_length",
    truncation=True,
    return_tensors="pt",
)
sep_mask = inputs["input_ids"][0] == sep_token_id

# Fix token_type_ids
current_token_type_id = 0 
for pos, input_id in enumerate(inputs["input_ids"][0]):
    inputs["token_type_ids"][0][pos] = current_token_type_id
    if input_id == sep_token_id:
        current_token_type_id = 1 - current_token_type_id

# Infer model
with torch.no_grad(): 
    outputs = model(**inputs) 
logits = outputs.logits[0, :, 1]

# Choose sentences 
logits = logits[sep_mask]
logits, indices = logits.sort(descending=True)
logits, indices = logits.cpu().tolist(), indices.cpu().tolist()
pairs = list(zip(logits, indices))
pairs = pairs[:3]
indices = list(sorted([idx for _, idx in pairs]))
summary = " ".join([sentences[idx] for idx in indices])
print(summary)