🚀 土耳其新聞摘要模型
本模型是專為生成簡潔連貫的土耳其新聞文章摘要而設計的。它基於 mukayese/mt5-base-turkish-summarization
進行微調,利用 yeniguno/turkish-news-summary-onesentence
數據集訓練,能夠有效提升對土耳其新聞內容進行摘要的能力,生成更精煉的新聞摘要。
🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import pipeline
pipe = pipeline("summarization", model="yeniguno/turkish-abstractive-summary-mt5")
text = """Brezilya'nın kuzeydoğu kıyısındaki Recife kentinde yangın çıkan bir gökdelen alevlere teslim oldu. Paylaşılan video kaydında, binayı alt katlarından üst katlarına kadar alevlerin sardığı görüldü. İlk belirlemelere göre ölen ya da yaralanan olmadı. Timesnow'ın haberine göre, binadan molozlar düşmesi nedeniyle civardaki binaların elektriği kesildi ve binalar tahliye edildi."""
response = pipe(
text,
max_length=150,
num_beams=4,
length_penalty=3.0,
early_stopping=True
)
print(response[0]["summary_text"])
✨ 主要特性
此模型適用於需要對土耳其新聞內容進行摘要的應用場景,例如新聞聚合平臺、內容策劃服務,以及旨在為長篇新聞文章提供快速概覽的應用程序。
🔧 技術細節
訓練數據
該模型在 yeniguno/turkish-news-summary-onesentence
數據集上進行微調,該數據集包含約 60,000 篇土耳其新聞文章及其對應的單句摘要。
訓練過程
模型使用 mukayese/mt5-base-turkish-summarization
在 yeniguno/turkish-news-summary-onesentence
數據集上進行微調。訓練使用了 Hugging Face 的 transformers
庫,並採用了以下超參數:
- 學習率:
5e-6
- 批量大小:訓練和評估時每個設備為
8
- 權重衰減:
0.01
- 訓練輪數:
10
- 評估策略:
epoch
(每輪訓練結束時進行評估)
- 損失函數:交叉熵損失
- 優化器:AdamW
- 訓練步數:
49,560
- 總浮點運算次數:
7.78e+17
- 使用生成進行預測:啟用
微調過程在 單個 GPU 上進行,並使用 DataCollatorForSeq2Seq
進行動態填充。
📚 詳細文檔
評估指標
為了評估模型的性能,我們使用了 ROUGE 分數,這是文本摘要任務中廣泛使用的指標。在每輪訓練結束時,在驗證集上計算以下指標:
輪數 |
訓練損失 |
驗證損失 |
ROUGE-1 |
ROUGE-2 |
ROUGE-L |
生成摘要平均長度 |
1 |
1.3854 |
1.2058 |
35.10 |
22.95 |
31.92 |
8.86 |
2 |
1.2895 |
1.1541 |
36.27 |
24.05 |
33.05 |
8.87 |
3 |
1.2631 |
1.1258 |
36.58 |
24.55 |
33.41 |
8.85 |
4 |
1.2318 |
1.1072 |
36.98 |
24.95 |
33.80 |
8.84 |
5 |
1.2130 |
1.0946 |
37.17 |
25.18 |
34.01 |
8.83 |
6 |
1.1948 |
1.0861 |
37.38 |
25.41 |
34.22 |
8.83 |
7 |
1.1888 |
1.0803 |
37.56 |
25.60 |
34.39 |
8.83 |
8 |
1.1810 |
1.0764 |
37.58 |
25.63 |
34.41 |
8.84 |
9 |
1.1690 |
1.0738 |
37.68 |
25.74 |
34.52 |
8.83 |
10 |
1.1814 |
1.0732 |
37.68 |
25.73 |
34.52 |
8.84 |
- ROUGE-1:衡量生成摘要與參考摘要之間一元詞組的重疊程度。
- ROUGE-2:衡量二元詞組的重疊程度。
- ROUGE-L:衡量參考摘要和生成摘要之間最長公共子序列的長度。
- 生成摘要平均長度:表示生成摘要的平均長度。
經過 10 輪訓練 後,模型在驗證數據集上達到了 ROUGE-1: 37.68,ROUGE-2: 25.73,ROUGE-L: 34.52,表明其摘要能力有所提升。訓練結束時,最終訓練損失為 1.2444,最後記錄的 驗證損失為 1.0732。該模型經過優化,能夠在保持高 語義準確性和可讀性 的同時,生成更簡潔緊湊的土耳其新聞摘要。
📄 許可證
本模型採用 Apache 2.0 許可證。