bsc_roberta2roberta_shared開源西班牙語文本摘要模型

首頁

Bsc Roberta2roberta Shared Spanish Finetuned Mlsum Summarization

由Narrativa開發

這是一個基於RoBERTa架構的西班牙語文本摘要模型，專門針對新聞摘要任務進行微調。

文本生成

Transformers

西班牙語#西班牙語新聞摘要 #RoBERTa多任務微調 #MLSUM數據集優化

下載量 296

發布時間 : 3/2/2022

模型概述

該模型使用RoBERTa-base-bne作為基礎架構，在MLSUM西班牙語新聞摘要數據集上進行微調，能夠生成新聞文章的簡潔摘要。

模型特點

西班牙語優化

專門針對西班牙語文本進行優化，使用西班牙語預訓練模型作為基礎

新聞摘要專業

在MLSUM新聞數據集上微調，特別適合新聞類文本的摘要生成

高效摘要

能夠從長文本中提取關鍵信息，生成簡潔準確的摘要

模型能力

西班牙語文本理解

新聞文本摘要生成

長文本關鍵信息提取

使用案例

新聞媒體

新聞自動摘要

為新聞網站自動生成文章摘要，提高讀者瀏覽效率

生成簡潔準確的新聞摘要，保留關鍵信息

內容分析

多文檔摘要

對多篇相關新聞進行綜合分析，生成統一摘要

🚀 西班牙RoBERTa2RoBERTa (roberta-base-bne) 在MLSUM ES數據集上微調用於摘要生成

本項目是將西班牙RoBERTa2RoBERTa (roberta-base-bne) 模型在MLSUM ES數據集上進行微調，以實現文本摘要生成功能。該模型能夠對文本進行有效概括，為用戶提供簡潔的文本摘要。

🚀 快速開始

模型使用示例

以下是使用該模型進行文本摘要生成的Python代碼示例：

import torch
from transformers import RobertaTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'Narrativa/bsc_roberta2roberta_shared-spanish-finetuned-mlsum-summarization'
tokenizer = RobertaTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)

def generate_summary(text):

    inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
    input_ids = inputs.input_ids.to(device)
    attention_mask = inputs.attention_mask.to(device)
    output = model.generate(input_ids, attention_mask=attention_mask)
    return tokenizer.decode(output[0], skip_special_tokens=True)
    
text = "Your text here..."
generate_summary(text)

✨ 主要特性

基於微調模型：使用 BSC-TeMU/roberta-base-bne 作為基礎模型，並在MLSUM ES數據集上進行微調，以適應摘要生成任務。
多語言支持潛力：基於MLSUM多語言數據集，雖然本項目聚焦於西班牙語，但模型具有一定的多語言擴展潛力。

📦 安裝指南

文檔中未提及具體安裝步驟，若需使用該模型，可參考Hugging Face相關庫的安裝方式，確保安裝 torch 和 transformers 庫。

💻 使用示例

基礎用法

import torch
from transformers import RobertaTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'Narrativa/bsc_roberta2roberta_shared-spanish-finetuned-mlsum-summarization'
tokenizer = RobertaTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)

def generate_summary(text):

    inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
    input_ids = inputs.input_ids.to(device)
    attention_mask = inputs.attention_mask.to(device)
    output = model.generate(input_ids, attention_mask=attention_mask)
    return tokenizer.decode(output[0], skip_special_tokens=True)
    
text = "Your text here..."
generate_summary(text)

高級用法

文檔中未提及高級用法相關代碼，可根據模型的API文檔進一步探索模型的參數調整等高級功能。

📚 詳細文檔

模型

使用的基礎模型為 BSC-TeMU/roberta-base-bne ，這是一個RoBERTa檢查點模型。

數據集

MLSUM 是第一個大規模多語言摘要數據集。它從在線報紙獲取，包含超過150萬篇文章及其摘要對，涵蓋五種不同語言，即法語、德語、西班牙語、俄語和土耳其語。與流行的CNN/Daily mail數據集中的英文報紙文章一起，收集的數據形成了一個大規模多語言數據集，為文本摘要社區開闢了新的研究方向。 MLSUM es

結果

屬性	詳情
測試集Rouge2 - mid - precision	11.42
測試集Rouge2 - mid - recall	10.58
測試集Rouge2 - mid - fmeasure	10.69
測試集Rouge1 - fmeasure	28.83
測試集RougeL - fmeasure	23.15

原始指標計算代碼如下：

rouge = datasets.load_metric("rouge")
rouge.compute(predictions=results["pred_summary"], references=results["summary"])

{'rouge1': AggregateScore(low=Score(precision=0.30393366820245, recall=0.27905239591639935, fmeasure=0.283148902808752), mid=Score(precision=0.3068521142101569, recall=0.2817252494122592, fmeasure=0.28560373425206464), high=Score(precision=0.30972608774202665, recall=0.28458152325781716, fmeasure=0.2883786700591887)),
 'rougeL': AggregateScore(low=Score(precision=0.24184668819794716, recall=0.22401171380621518, fmeasure=0.22624104698839514), mid=Score(precision=0.24470388406868163, recall=0.22665793214539162, fmeasure=0.2289118878817394), high=Score(precision=0.2476594458951327, recall=0.22932683203591905, fmeasure=0.23153001570662513))}
 
rouge.compute(predictions=results["pred_summary"], references=results["summary"], rouge_types=["rouge2"])["rouge2"].mid

Score(precision=0.11423200347113865, recall=0.10588038944902506, fmeasure=0.1069921217219595)