🚀 土耳其语BERT2BERT(共享)在MLSUM TR上微调用于文本摘要
本项目是一个基于土耳其语的文本摘要模型,通过在MLSUM TR数据集上对BERT2BERT(共享)模型进行微调,实现了对新闻等文本的有效摘要提取。
🚀 快速开始
代码示例
import torch
from transformers import BertTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'mrm8488/bert2bert_shared-turkish-summarization'
tokenizer = BertTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)
def generate_summary(text):
inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
input_ids = inputs.input_ids.to(device)
attention_mask = inputs.attention_mask.to(device)
output = model.generate(input_ids, attention_mask=attention_mask)
return tokenizer.decode(output[0], skip_special_tokens=True)
text = "Your text here..."
generate_summary(text)
✨ 主要特性
📦 安装指南
文档未提供安装步骤,暂无法展示。
💻 使用示例
基础用法
import torch
from transformers import BertTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'mrm8488/bert2bert_shared-turkish-summarization'
tokenizer = BertTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)
def generate_summary(text):
inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
input_ids = inputs.input_ids.to(device)
attention_mask = inputs.attention_mask.to(device)
output = model.generate(input_ids, attention_mask=attention_mask)
return tokenizer.decode(output[0], skip_special_tokens=True)
text = "Your text here..."
generate_summary(text)
高级用法
文档未提供高级用法示例,暂无法展示。
📚 详细文档
模型
使用的基础模型为 dbmdz/bert-base-turkish-cased(BERT检查点)。
数据集
MLSUM 是第一个大规模的多语言摘要数据集。它从在线报纸获取,包含五种不同语言(法语、德语、西班牙语、俄语和 土耳其语)的超过150万篇文章及其摘要对。结合来自流行的CNN/Daily mail数据集的英文报纸文章,收集的数据形成了一个大规模的多语言数据集,为文本摘要领域的研究提供了新的方向。
数据集链接:MLSUM tu/tr
结果
属性 |
详情 |
测试集Rouge2 - mid - 精确率 |
32.41 |
测试集Rouge2 - mid - 召回率 |
28.65 |
测试集Rouge2 - mid - F值 |
29.48 |
🔧 技术细节
文档未提供具体的技术实现细节,暂无法展示。
📄 许可证
文档未提供许可证信息,暂无法展示。
Created by Manuel Romero/@mrm8488 with the support of Narrativa
Made with ♥ in Spain