🚀 越南语文本摘要模型
这是一个基于Transformer架构的最先进轻量级预训练编解码器模型,专为越南语文本摘要任务设计。该模型在越南新闻数据集上进行训练,输入长度为512,输出长度为150。
🚀 快速开始
✨ 主要特性
- 基于Transformer架构的轻量级预训练模型。
- 针对越南语进行训练,适用于越南语新闻文本摘要任务。
📦 安装指南
文档未提及安装步骤,暂不展示。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("minhtoan/t5-small-vietnamese-news")
model = AutoModelForSeq2SeqLM.from_pretrained("minhtoan/t5-small-vietnamese-news")
model.cuda()
src = 'VKS cáo buộc ông Nguyễn Thế Hiệp có sai phạm trong vụ cháy gần Bệnh viện Nhi trung ương khiến 2 người chết, thiệt hại 1,9 tỷ đồng song bị cáo khẳng định vô tội. Mức án đề nghị 9-10 năm tù với bị cáo 73 tuổi được đại diện VKSND quận Ba Đình đưa ra chiều 28/11, quy buộc phạm tội Vi phạm quy định về phòng cháy chữa cháy, theo Điều 313 Bộ luật Hình sự. VKS nhận định ông Hiệp có lỗi trong việc vận hành nhà trọ không phép, không đủ điều kiện an toàn phòng cháy chữa cháy, gây thiệt hại về tài sản và khiến hai người chết. Tuy nhiên, bị cáo chưa bồi thường. Bản luận tội nêu, tại phiên tòa hôm nay ông Hiệp "chưa tỏ thái độ ăn năn hối hận, có nhân thân đặc biệt xấu". Từ hàng chục năm trước, ông từng 11 lần bị lập danh chỉ bản về hành vi trộm cắp, năm 1985 lại nhận 18 năm tù về các tội cướp tài sản, hiếp dâm, đưa hối lộ...'
tokenized_text = tokenizer.encode(src, return_tensors="pt").cuda()
model.eval()
summary_ids = model.generate(tokenized_text, max_length=150)
output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
output
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
基于Transformer架构的轻量级预训练编解码器模型 |
训练数据 |
Vietnamese News |
输入长度 |
512 |
输出长度 |
150 |
📄 许可证
本项目采用MIT许可证。
👨💻 作者
Phan Minh Toan