🚀 萨莱基语(skr)新闻摘要生成
本模型是基于约1300篇萨莱基语新闻标题及其正文进行训练的。它可以用于对萨莱基语新闻文本进行摘要生成(详见快速开始部分)。
🚀 快速开始
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
tokenizer = MBart50TokenizerFast.from_pretrained("SaraikiAI/mbart50-saraiki-news-summarization")
model = MBartForConditionalGeneration.from_pretrained("SaraikiAI/mbart50-saraiki-news-summarization")
tokenizer.src_lang = "ur_PK"
tokenizer.tgt_lang = "ur_PK"
text = """
اسلام آباد(اے پی پی) صدر مملکت آصف علی زرداری پاکستان اتے چین وچال ، زراعت، لائیو سٹاک، توانائی، ٹرانسپورٹ اتے مینوفیکچرنگ سودھے مختفل شعبیاں اچ سرمایہ کاری اچ دلچسپی دا اظہار کیتے۔
خمیس کوں ایوان صدر دے پریس ونگ توں جاری بیان موجب اے ڳالھیں انہاں بلاول ہائوس کراچی اچ چین دے کاروباری وفد نال ملاقات اچ ڳالھ مہاڑ کریندیں ہوئیں آکھی۔ ملاقات اچ وزیر اعلیٰ سندھ سید مراد علی شاہ، صوبائی وزرا اتے چین دے قونصل جنرل شریک تھیے۔
صدرمملکت پاکستانی معیشت دے مختلف شعبیاں اچ چینی سرمایہ کاری ودھاوݨ تے زور ݙتا۔ وفد ملکی شعبہ صحت دی ترقی کیتے پاکستان اچ میڈیکل سٹی ٻݨاوݨ کیتے ہک ارب ڈالر دی سرمایہ کاری اچ دلچسپی ݙکھائی اے۔
صدر آصف علی زرداری آکھیا جو پاکستان اتے چین وچال کئی ݙھاکیاں دی دوستی اے، گوادر پورٹ کوں ہک علاقائی تجارت اتے اقتصادی مرکز دے طور ترقی ݙیوݨ میݙا وژن ہئی۔ پاکستان چینی سرمایہ کاراں کوں ہر سہولت ݙیوݨ کیتے پرعزم اے۔
صدر آکھیا جو سندھ اچ چینی زبان دے کورسز متعارف کرائے ڳئن جو پاکستان اتے چین وچال رابطے مضبوط ٻݨاوݨ اچ اہم ثابت تھیسن۔
"""
inputs = tokenizer(text, return_tensors="pt", max_length=512, truncation=True)
out = model.generate(**inputs, max_length=128)
print(tokenizer.decode(out[0], skip_special_tokens=True))
📊 训练信息
轮次 |
训练损失 |
验证损失 |
得分 |
计数 |
总数 |
精确率 |
惩罚因子 |
系统长度 |
参考长度 |
1 |
无日志 |
0.374773 |
25.001063 |
[915, 573, 381, 257] |
[2114, 1978, 1842, 1706] |
[43.28287606433302, 28.96865520728008, 20.684039087947884, 15.064478311840563] |
1.000000 |
2114 |
2033 |
2 |
1.336700 |
0.339535 |
28.596999 |
[1007, 644, 434, 307] |
[2106, 1970, 1834, 1698] |
[47.81576448243115, 32.69035532994924, 23.66412213740458, 18.080094228504123] |
1.000000 |
2106 |
2033 |
3 |
1.336700 |
0.335672 |
29.428384 |
[957, 632, 434, 312] |
[1984, 1848, 1712, 1576] |
[48.23588709677419, 34.1991341991342, 25.350467289719628, 19.79695431472081] |
0.975605 |
1984 |
2033 |
4 |
0.223400 |
0.340421 |
30.628355 |
[1018, 676, 463, 334] |
[2075, 1939, 1803, 1667] |
[49.06024096385542, 34.86333161423414, 25.679423183582916, 20.03599280143971] |
1.000000 |
2075 |
2033 |
5 |
0.134800 |
0.347603 |
29.967295 |
[983, 644, 441, 318] |
[2022, 1886, 1750, 1614] |
[48.61523244312562, 34.146341463414636, 25.2, 19.702602230483272] |
0.994575 |
2022 |
2033 |
📄 许可证
本项目采用MIT许可证。
🔖 其他信息
属性 |
详情 |
库名称 |
transformers |
语言 |
skr |
标签 |
skr、saraiki、低资源语言、新闻摘要、萨莱基语新闻、萨莱基语新闻摘要、skr新闻 |
基础模型 |
facebook/mbart-large-50-many-to-many-mmt |
任务类型 |
摘要生成 |