🚀 西班牙BERT2BERT(BETO)在MLSUM ES数据集上微调用于文本摘要
本项目基于MLSUM ES数据集对西班牙BERT2BERT(BETO)模型进行微调,用于文本摘要任务。该模型能够有效处理西班牙语文本,为新闻等文本提供高质量的摘要。
🚀 快速开始
环境准备
确保你已经安装了torch
和transformers
库。如果没有安装,可以使用以下命令进行安装:
pip install torch transformers
代码示例
import torch
from transformers import BertTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'mrm8488/bert2bert_shared-spanish-finetuned-summarization'
tokenizer = BertTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)
def generate_summary(text):
inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
input_ids = inputs.input_ids.to(device)
attention_mask = inputs.attention_mask.to(device)
output = model.generate(input_ids, attention_mask=attention_mask)
return tokenizer.decode(output[0], skip_special_tokens=True)
text = "Your text here..."
generate_summary(text)
✨ 主要特性
- 多语言支持:基于MLSUM数据集,该数据集包含法语、德语、西班牙语、俄语和土耳其语等五种语言的文章和摘要对,为跨语言研究提供了可能。
- 微调模型:在MLSUM ES数据集上对BERT2BERT模型进行微调,提高了模型在西班牙语文本摘要任务上的性能。
- 良好的评估指标:在测试集上,模型取得了较好的Rouge指标,如Rouge1为26.24,Rouge2为8.9等。
📦 安装指南
使用以下命令安装所需的库:
pip install torch transformers
💻 使用示例
基础用法
import torch
from transformers import BertTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'mrm8488/bert2bert_shared-spanish-finetuned-summarization'
tokenizer = BertTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)
def generate_summary(text):
inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
input_ids = inputs.input_ids.to(device)
attention_mask = inputs.attention_mask.to(device)
output = model.generate(input_ids, attention_mask=attention_mask)
return tokenizer.decode(output[0], skip_special_tokens=True)
text = "Your text here..."
generate_summary(text)
高级用法
你可以根据具体需求调整max_length
等参数,以获得更好的摘要效果。
📚 详细文档
模型
使用的是 dccuchile/bert-base-spanish-wwm-cased(BERT检查点)。
数据集
MLSUM 是第一个大规模的多语言摘要数据集。它从在线报纸获取,包含150多万篇文章/摘要对,涵盖五种不同语言,即法语、德语、西班牙语、俄语和土耳其语。与流行的CNN/Daily mail数据集中的英文报纸文章一起,收集的数据构成了一个大规模的多语言数据集,为文本摘要社区带来了新的研究方向。我们基于最先进的系统进行了跨语言比较分析,这些分析凸显了现有的偏差,这也促使我们使用多语言数据集。
MLSUM es
结果
数据集 |
指标 |
值 |
测试集 |
Rouge2 - mid - 精确率 |
9.6 |
测试集 |
Rouge2 - mid - 召回率 |
8.4 |
测试集 |
Rouge2 - mid - F值 |
8.7 |
测试集 |
Rouge1 |
26.24 |
测试集 |
Rouge2 |
8.9 |
测试集 |
RougeL |
21.01 |
测试集 |
RougeLsum |
21.02 |
📄 许可证
文档中未提及相关许可证信息。
由 Manuel Romero/@mrm8488 在 Narrativa 的支持下创建。
于西班牙用心打造 ♥