🚀 法語RoBERTa2RoBERTa(共享)在MLSUM FR數據集上微調用於文本摘要
本項目是一個基於法語的文本摘要模型,通過在MLSUM FR數據集上對RoBERTa模型進行微調,實現了對法語新聞等文本的摘要功能。
🚀 快速開始
本模型基於RoBERTa架構,在MLSUM FR數據集上進行微調,可用於法語文本的摘要生成。
✨ 主要特性
- 多語言支持:基於MLSUM數據集,該數據集包含多種語言的文章和摘要對,為多語言文本摘要研究提供了支持。
- 微調優化:在法語新聞數據集上進行微調,更適合法語新聞文本的摘要任務。
📦 安裝指南
本項目未提及具體安裝步驟,可根據使用的環境和依賴庫進行安裝。一般來說,需要安裝torch
和transformers
庫,可使用以下命令進行安裝:
pip install torch transformers
💻 使用示例
基礎用法
import torch
from transformers import RobertaTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'mrm8488/camembert2camembert_shared-finetuned-french-summarization'
tokenizer = RobertaTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)
def generate_summary(text):
inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
input_ids = inputs.input_ids.to(device)
attention_mask = inputs.attention_mask.to(device)
output = model.generate(input_ids, attention_mask=attention_mask)
return tokenizer.decode(output[0], skip_special_tokens=True)
text = "Un nuage de fumée juste après l’explosion, le 1er juin 2019. Une déflagration dans une importante usine d’explosifs du centre de la Russie a fait au moins 79 blessés samedi 1er juin. L’explosion a eu lieu dans l’usine Kristall à Dzerzhinsk, une ville située à environ 400 kilomètres à l’est de Moscou, dans la région de Nijni-Novgorod. « Il y a eu une explosion technique dans l’un des ateliers, suivie d’un incendie qui s’est propagé sur une centaine de mètres carrés », a expliqué un porte-parole des services d’urgence. Des images circulant sur les réseaux sociaux montraient un énorme nuage de fumée après l’explosion. Cinq bâtiments de l’usine et près de 180 bâtiments résidentiels ont été endommagés par l’explosion, selon les autorités municipales. Une enquête pour de potentielles violations des normes de sécurité a été ouverte. Fragments de shrapnel Les blessés ont été soignés après avoir été atteints par des fragments issus de l’explosion, a précisé une porte-parole des autorités sanitaires citée par Interfax. « Nous parlons de blessures par shrapnel d’une gravité moyenne et modérée », a-t-elle précisé. Selon des représentants de Kristall, cinq personnes travaillaient dans la zone où s’est produite l’explosion. Elles ont pu être évacuées en sécurité. Les pompiers locaux ont rapporté n’avoir aucune information sur des personnes qui se trouveraient encore dans l’usine."
generate_summary(text)
📚 詳細文檔
模型
本模型基於camembert-base(RoBERTa檢查點)進行微調。
數據集
MLSUM 是第一個大規模多語言摘要數據集。它從在線報紙獲取,包含超過150萬對文章/摘要對,涵蓋五種不同語言,即法語、德語、西班牙語、俄語和土耳其語。與流行的CNN/Daily mail數據集中的英語報紙數據一起,收集的數據形成了一個大規模的多語言數據集,為文本摘要領域的研究提供了新的方向。
MLSUM fr
結果
數據集 |
指標 |
得分 |
測試集 |
Rouge2 - mid - 精確率 |
14.47 |
測試集 |
Rouge2 - mid - 召回率 |
12.90 |
測試集 |
Rouge2 - mid - F值 |
13.30 |
📄 許可證
本項目未提及許可證信息。
本項目由 Manuel Romero/@mrm8488 創建,並得到了 Narrativa 的支持。
於西班牙用心打造 ♥