🚀 法语RoBERTa2RoBERTa(共享)在MLSUM FR数据集上微调用于文本摘要
本项目是一个基于法语的文本摘要模型,通过在MLSUM FR数据集上对RoBERTa模型进行微调,实现了对法语新闻等文本的摘要功能。
🚀 快速开始
本模型基于RoBERTa架构,在MLSUM FR数据集上进行微调,可用于法语文本的摘要生成。
✨ 主要特性
- 多语言支持:基于MLSUM数据集,该数据集包含多种语言的文章和摘要对,为多语言文本摘要研究提供了支持。
- 微调优化:在法语新闻数据集上进行微调,更适合法语新闻文本的摘要任务。
📦 安装指南
本项目未提及具体安装步骤,可根据使用的环境和依赖库进行安装。一般来说,需要安装torch
和transformers
库,可使用以下命令进行安装:
pip install torch transformers
💻 使用示例
基础用法
import torch
from transformers import RobertaTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'mrm8488/camembert2camembert_shared-finetuned-french-summarization'
tokenizer = RobertaTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)
def generate_summary(text):
inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
input_ids = inputs.input_ids.to(device)
attention_mask = inputs.attention_mask.to(device)
output = model.generate(input_ids, attention_mask=attention_mask)
return tokenizer.decode(output[0], skip_special_tokens=True)
text = "Un nuage de fumée juste après l’explosion, le 1er juin 2019. Une déflagration dans une importante usine d’explosifs du centre de la Russie a fait au moins 79 blessés samedi 1er juin. L’explosion a eu lieu dans l’usine Kristall à Dzerzhinsk, une ville située à environ 400 kilomètres à l’est de Moscou, dans la région de Nijni-Novgorod. « Il y a eu une explosion technique dans l’un des ateliers, suivie d’un incendie qui s’est propagé sur une centaine de mètres carrés », a expliqué un porte-parole des services d’urgence. Des images circulant sur les réseaux sociaux montraient un énorme nuage de fumée après l’explosion. Cinq bâtiments de l’usine et près de 180 bâtiments résidentiels ont été endommagés par l’explosion, selon les autorités municipales. Une enquête pour de potentielles violations des normes de sécurité a été ouverte. Fragments de shrapnel Les blessés ont été soignés après avoir été atteints par des fragments issus de l’explosion, a précisé une porte-parole des autorités sanitaires citée par Interfax. « Nous parlons de blessures par shrapnel d’une gravité moyenne et modérée », a-t-elle précisé. Selon des représentants de Kristall, cinq personnes travaillaient dans la zone où s’est produite l’explosion. Elles ont pu être évacuées en sécurité. Les pompiers locaux ont rapporté n’avoir aucune information sur des personnes qui se trouveraient encore dans l’usine."
generate_summary(text)
📚 详细文档
模型
本模型基于camembert-base(RoBERTa检查点)进行微调。
数据集
MLSUM 是第一个大规模多语言摘要数据集。它从在线报纸获取,包含超过150万对文章/摘要对,涵盖五种不同语言,即法语、德语、西班牙语、俄语和土耳其语。与流行的CNN/Daily mail数据集中的英语报纸数据一起,收集的数据形成了一个大规模的多语言数据集,为文本摘要领域的研究提供了新的方向。
MLSUM fr
结果
数据集 |
指标 |
得分 |
测试集 |
Rouge2 - mid - 精确率 |
14.47 |
测试集 |
Rouge2 - mid - 召回率 |
12.90 |
测试集 |
Rouge2 - mid - F值 |
13.30 |
📄 许可证
本项目未提及许可证信息。
本项目由 Manuel Romero/@mrm8488 创建,并得到了 Narrativa 的支持。
于西班牙用心打造 ♥