🚀 文本摘要库 - Transformers
本项目基于transformers
库,专注于文本摘要任务,利用预训练模型实现对越南语文本的自动化摘要生成。
🚀 快速开始
安装依赖
确保你已经安装了transformers
库,如果没有安装,可以使用以下命令进行安装:
pip install transformers
使用示例
以下是使用CreatorPhan/ViSummary
模型进行文本摘要的示例代码:
from transformers import AutoTokenizer, T5ForConditionalGeneration
device = 'cpu'
model_path = "CreatorPhan/ViSummary"
model = T5ForConditionalGeneration.from_pretrained(model_path).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_path)
context = """
Một yếu tố quan trọng khiến thương vụ Messi trở lại Barca có cơ hội lớn thành công là việc La Liga đã phê chuẩn kế hoạch cân bằng tài chính do Barca trình bày trong buổi họp gần đây. Điều này giúp đội bóng xứ Catalonia giải quyết vấn đề khúc mắc lớn nhất. Vào mùa hè năm 2021, Messi phải rời Barca sau 21 năm gắn bó do CLB không thể đáp ứng quy định tài chính của La Liga.
Messi trở thành cầu thủ tự do sau khi hết hai năm hợp đồng với PSG. Anh được nhiều CLB mời chào. Theo Athletic, có ba đội đang nhắm tới anh là Barca, Inter Miami (Mỹ) và một CLB Arab Saudi. Trong đó, chỉ có phía Saudi đưa ra đề nghị chính thức cho Messi, với hợp đồng trị giá 400 triệu USD mỗi năm.
Tuy nhiên, ở tuổi 35, Messi vẫn muốn trở lại Barca để cống hiến cho CLB đã làm nên tên tuổi của anh. Lúc này, đội chủ sân Nou Camp được dẫn dắt bởi HLV Xavi - đồng đội và là đàn anh chỉ dạy Messi trong những năm đầu sự nghiệp.
"""
tokens = tokenizer(f"Tóm tắt văn bản sau: {context}", return_tensors='pt').input_ids
output = model.generate(tokens.to(device), max_new_tokens=170)[0]
predict = tokenizer.decode(output, skip_special_tokens=True)
print(len(predict.split()))
print(predict)
代码解释
- 导入库:导入
AutoTokenizer
和T5ForConditionalGeneration
类。
- 指定设备:将设备设置为
CPU
。
- 加载模型和分词器:从指定路径加载预训练的模型和分词器。
- 准备文本:定义待摘要的文本内容。
- 分词和生成摘要:对文本进行分词,然后使用模型生成摘要。
- 解码和输出:对生成的摘要进行解码,并打印摘要的单词数量和内容。
📚 详细文档
- 模型:
T5ForConditionalGeneration
是一个基于T5架构的条件生成模型,适用于文本生成任务。
- 分词器:
AutoTokenizer
可以根据模型自动选择合适的分词器。
- 参数说明:
max_new_tokens
:指定生成摘要的最大新单词数量。
🔧 技术细节
本项目使用了预训练的T5
模型,该模型在大规模文本数据上进行了训练,能够学习到丰富的语言知识。通过微调模型,可以使其适应特定的文本摘要任务。在本示例中,我们使用了CreatorPhan/ViSummary
模型,该模型针对越南语文本摘要进行了优化。
📄 许可证
本项目遵循transformers
库的开源许可证,具体许可证信息请参考transformers
库的官方文档。