🚀 薩萊基語(skr)新聞摘要生成
本模型是基於約1300篇薩萊基語新聞標題及其正文進行訓練的。它可以用於對薩萊基語新聞文本進行摘要生成(詳見快速開始部分)。
🚀 快速開始
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
tokenizer = MBart50TokenizerFast.from_pretrained("SaraikiAI/mbart50-saraiki-news-summarization")
model = MBartForConditionalGeneration.from_pretrained("SaraikiAI/mbart50-saraiki-news-summarization")
tokenizer.src_lang = "ur_PK"
tokenizer.tgt_lang = "ur_PK"
text = """
اسلام آباد(اے پی پی) صدر مملکت آصف علی زرداری پاکستان اتے چین وچال ، زراعت، لائیو سٹاک، توانائی، ٹرانسپورٹ اتے مینوفیکچرنگ سودھے مختفل شعبیاں اچ سرمایہ کاری اچ دلچسپی دا اظہار کیتے۔
خمیس کوں ایوان صدر دے پریس ونگ توں جاری بیان موجب اے ڳالھیں انہاں بلاول ہائوس کراچی اچ چین دے کاروباری وفد نال ملاقات اچ ڳالھ مہاڑ کریندیں ہوئیں آکھی۔ ملاقات اچ وزیر اعلیٰ سندھ سید مراد علی شاہ، صوبائی وزرا اتے چین دے قونصل جنرل شریک تھیے۔
صدرمملکت پاکستانی معیشت دے مختلف شعبیاں اچ چینی سرمایہ کاری ودھاوݨ تے زور ݙتا۔ وفد ملکی شعبہ صحت دی ترقی کیتے پاکستان اچ میڈیکل سٹی ٻݨاوݨ کیتے ہک ارب ڈالر دی سرمایہ کاری اچ دلچسپی ݙکھائی اے۔
صدر آصف علی زرداری آکھیا جو پاکستان اتے چین وچال کئی ݙھاکیاں دی دوستی اے، گوادر پورٹ کوں ہک علاقائی تجارت اتے اقتصادی مرکز دے طور ترقی ݙیوݨ میݙا وژن ہئی۔ پاکستان چینی سرمایہ کاراں کوں ہر سہولت ݙیوݨ کیتے پرعزم اے۔
صدر آکھیا جو سندھ اچ چینی زبان دے کورسز متعارف کرائے ڳئن جو پاکستان اتے چین وچال رابطے مضبوط ٻݨاوݨ اچ اہم ثابت تھیسن۔
"""
inputs = tokenizer(text, return_tensors="pt", max_length=512, truncation=True)
out = model.generate(**inputs, max_length=128)
print(tokenizer.decode(out[0], skip_special_tokens=True))
📊 訓練信息
輪次 |
訓練損失 |
驗證損失 |
得分 |
計數 |
總數 |
精確率 |
懲罰因子 |
系統長度 |
參考長度 |
1 |
無日誌 |
0.374773 |
25.001063 |
[915, 573, 381, 257] |
[2114, 1978, 1842, 1706] |
[43.28287606433302, 28.96865520728008, 20.684039087947884, 15.064478311840563] |
1.000000 |
2114 |
2033 |
2 |
1.336700 |
0.339535 |
28.596999 |
[1007, 644, 434, 307] |
[2106, 1970, 1834, 1698] |
[47.81576448243115, 32.69035532994924, 23.66412213740458, 18.080094228504123] |
1.000000 |
2106 |
2033 |
3 |
1.336700 |
0.335672 |
29.428384 |
[957, 632, 434, 312] |
[1984, 1848, 1712, 1576] |
[48.23588709677419, 34.1991341991342, 25.350467289719628, 19.79695431472081] |
0.975605 |
1984 |
2033 |
4 |
0.223400 |
0.340421 |
30.628355 |
[1018, 676, 463, 334] |
[2075, 1939, 1803, 1667] |
[49.06024096385542, 34.86333161423414, 25.679423183582916, 20.03599280143971] |
1.000000 |
2075 |
2033 |
5 |
0.134800 |
0.347603 |
29.967295 |
[983, 644, 441, 318] |
[2022, 1886, 1750, 1614] |
[48.61523244312562, 34.146341463414636, 25.2, 19.702602230483272] |
0.994575 |
2022 |
2033 |
📄 許可證
本項目採用MIT許可證。
🔖 其他信息
屬性 |
詳情 |
庫名稱 |
transformers |
語言 |
skr |
標籤 |
skr、saraiki、低資源語言、新聞摘要、薩萊基語新聞、薩萊基語新聞摘要、skr新聞 |
基礎模型 |
facebook/mbart-large-50-many-to-many-mmt |
任務類型 |
摘要生成 |