bsc_roberta2roberta_sharedオープンソーススペイン語テキスト要約モデル - 無料でデプロイしてニュース内容の抽出を支援

ホーム

Bsc Roberta2roberta Shared Spanish Finetuned Mlsum Summarization

Narrativaによって開発

これはRoBERTaアーキテクチャに基づくスペイン語テキスト要約モデルで、ニュース要約タスクに特化して微調整されています。

テキスト生成

Transformers

スペイン語#スペイン語ニュース要約 #RoBERTa多タスク微調整 #MLSUMデータセットの最適化

ダウンロード数 296

リリース時間 : 3/2/2022

モデル概要

このモデルはRoBERTa-base-bneを基礎アーキテクチャとして使用し、MLSUMスペイン語ニュース要約データセットで微調整されており、ニュース記事の簡潔な要約を生成することができます。

モデル特徴

スペイン語最適化

スペイン語テキストに特化して最適化されており、スペイン語の事前学習モデルを基礎として使用しています

ニュース要約専門

MLSUMニュースデータセットで微調整されており、ニュース系のテキストの要約生成に特に適しています

効率的な要約

長いテキストから重要な情報を抽出し、簡潔で正確な要約を生成することができます

モデル能力

スペイン語テキスト理解

ニューステキスト要約生成

長いテキストの重要情報抽出

使用事例

ニュースメディア

ニュース自動要約

ニュースウェブサイトに対して自動的に記事の要約を生成し、読者の閲覧効率を向上させます

簡潔で正確なニュース要約を生成し、重要な情報を保持します

コンテンツ分析

複数文書の要約

複数の関連するニュースに対して総合的な分析を行い、統一された要約を生成します

🚀 スペイン語RoBERTa2RoBERTa (roberta-base-bne)：MLSUM ESの要約タスクでファインチューニング済み

このモデルは、MLSUM ESデータセットを使用して要約タスクに特化してファインチューニングされたスペイン語のRoBERTa2RoBERTaモデルです。MLSUM ESの多様なニュース記事と要約のペアを用いて学習され、高精度な要約生成が可能です。

🚀 クイックスタート

このモデルを使用することで、スペイン語のテキストを効率的に要約することができます。以下のセクションでは、モデルの詳細、使用するデータセット、結果、使用例について説明します。

✨ 主な機能

高精度な要約生成：MLSUM ESデータセットでファインチューニングされたため、スペイン語のテキストを高精度に要約できます。
簡単な使用方法：transformersライブラリを使用して、簡単にモデルをロードし、要約を生成することができます。

📦 インストール

このモデルを使用するには、transformersライブラリとtorchライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers torch

📚 ドキュメント

モデル

BSC - TeMU/roberta - base - bne (RoBERTaチェックポイント)をベースに、MLSUM ESデータセットでファインチューニングされています。

データセット

MLSUMは、初の大規模な多言語要約データセットです。オンライン新聞から収集され、フランス語、ドイツ語、スペイン語、ロシア語、トルコ語の5つの言語で150万以上の記事と要約のペアを含んでいます。人気のCNN/Daily mailデータセットの英語の新聞記事と合わせて、大規模な多言語データセットを形成し、テキスト要約コミュニティに新しい研究方向を提供します。

MLSUM es

結果

セット	指標	値
テスト	Rouge2 - mid - precision	11.42
テスト	Rouge2 - mid - recall	10.58
テスト	Rouge2 - mid - fmeasure	10.69
テスト	Rouge1 - fmeasure	28.83
テスト	RougeL - fmeasure	23.15

HF/metrics rougeを使用した生の指標：

rouge = datasets.load_metric("rouge")
rouge.compute(predictions=results["pred_summary"], references=results["summary"])

{'rouge1': AggregateScore(low=Score(precision=0.30393366820245, recall=0.27905239591639935, fmeasure=0.283148902808752), mid=Score(precision=0.3068521142101569, recall=0.2817252494122592, fmeasure=0.28560373425206464), high=Score(precision=0.30972608774202665, recall=0.28458152325781716, fmeasure=0.2883786700591887)),
 'rougeL': AggregateScore(low=Score(precision=0.24184668819794716, recall=0.22401171380621518, fmeasure=0.22624104698839514), mid=Score(precision=0.24470388406868163, recall=0.22665793214539162, fmeasure=0.2289118878817394), high=Score(precision=0.2476594458951327, recall=0.22932683203591905, fmeasure=0.23153001570662513))}
 
rouge.compute(predictions=results["pred_summary"], references=results["summary"], rouge_types=["rouge2"])["rouge2"].mid

Score(precision=0.11423200347113865, recall=0.10588038944902506, fmeasure=0.1069921217219595)

💻 使用例

基本的な使用法

import torch
from transformers import RobertaTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'Narrativa/bsc_roberta2roberta_shared-spanish-finetuned-mlsum-summarization'
tokenizer = RobertaTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)

def generate_summary(text):

    inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
    input_ids = inputs.input_ids.to(device)
    attention_mask = inputs.attention_mask.to(device)
    output = model.generate(input_ids, attention_mask=attention_mask)
    return tokenizer.decode(output[0], skip_special_tokens=True)
    
text = "Your text here..."
generate_summary(text)