🚀 文本摘要庫 - Transformers
本項目基於transformers
庫,專注於文本摘要任務,利用預訓練模型實現對越南語文本的自動化摘要生成。
🚀 快速開始
安裝依賴
確保你已經安裝了transformers
庫,如果沒有安裝,可以使用以下命令進行安裝:
pip install transformers
使用示例
以下是使用CreatorPhan/ViSummary
模型進行文本摘要的示例代碼:
from transformers import AutoTokenizer, T5ForConditionalGeneration
device = 'cpu'
model_path = "CreatorPhan/ViSummary"
model = T5ForConditionalGeneration.from_pretrained(model_path).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_path)
context = """
Một yếu tố quan trọng khiến thương vụ Messi trở lại Barca có cơ hội lớn thành công là việc La Liga đã phê chuẩn kế hoạch cân bằng tài chính do Barca trình bày trong buổi họp gần đây. Điều này giúp đội bóng xứ Catalonia giải quyết vấn đề khúc mắc lớn nhất. Vào mùa hè năm 2021, Messi phải rời Barca sau 21 năm gắn bó do CLB không thể đáp ứng quy định tài chính của La Liga.
Messi trở thành cầu thủ tự do sau khi hết hai năm hợp đồng với PSG. Anh được nhiều CLB mời chào. Theo Athletic, có ba đội đang nhắm tới anh là Barca, Inter Miami (Mỹ) và một CLB Arab Saudi. Trong đó, chỉ có phía Saudi đưa ra đề nghị chính thức cho Messi, với hợp đồng trị giá 400 triệu USD mỗi năm.
Tuy nhiên, ở tuổi 35, Messi vẫn muốn trở lại Barca để cống hiến cho CLB đã làm nên tên tuổi của anh. Lúc này, đội chủ sân Nou Camp được dẫn dắt bởi HLV Xavi - đồng đội và là đàn anh chỉ dạy Messi trong những năm đầu sự nghiệp.
"""
tokens = tokenizer(f"Tóm tắt văn bản sau: {context}", return_tensors='pt').input_ids
output = model.generate(tokens.to(device), max_new_tokens=170)[0]
predict = tokenizer.decode(output, skip_special_tokens=True)
print(len(predict.split()))
print(predict)
代碼解釋
- 導入庫:導入
AutoTokenizer
和T5ForConditionalGeneration
類。
- 指定設備:將設備設置為
CPU
。
- 加載模型和分詞器:從指定路徑加載預訓練的模型和分詞器。
- 準備文本:定義待摘要的文本內容。
- 分詞和生成摘要:對文本進行分詞,然後使用模型生成摘要。
- 解碼和輸出:對生成的摘要進行解碼,並打印摘要的單詞數量和內容。
📚 詳細文檔
- 模型:
T5ForConditionalGeneration
是一個基於T5架構的條件生成模型,適用於文本生成任務。
- 分詞器:
AutoTokenizer
可以根據模型自動選擇合適的分詞器。
- 參數說明:
max_new_tokens
:指定生成摘要的最大新單詞數量。
🔧 技術細節
本項目使用了預訓練的T5
模型,該模型在大規模文本數據上進行了訓練,能夠學習到豐富的語言知識。通過微調模型,可以使其適應特定的文本摘要任務。在本示例中,我們使用了CreatorPhan/ViSummary
模型,該模型針對越南語文本摘要進行了優化。
📄 許可證
本項目遵循transformers
庫的開源許可證,具體許可證信息請參考transformers
庫的官方文檔。