Persian Summarizer MT5
Persian text summarization model based on MT5 architecture, fine-tuned on TasnimNews dataset
Downloads 17
Release Time : 2/9/2024
Model Overview
This model is specifically designed for generating summaries of Persian texts, fine-tuned on the TasnimNews dataset based on the pre-trained model pn-summary-mt5-small
Model Features
Persian optimization
Specially optimized and fine-tuned for Persian texts
News summarization
Trained on news datasets, particularly suitable for news text summarization
Lightweight model
Based on MT5-small architecture, relatively lightweight and efficient
Model Capabilities
Persian text summarization
News content condensation
Long text compression
Use Cases
News processing
News summary generation
Automatically generate concise summaries of Persian news articles
Produces accurate and concise news highlights
Content analysis
Document key information extraction
Extract core content from long documents
Helps quickly understand document main points
🚀 TasnimSum-MT5 Summary
This model is fine-tuned to generate summaries based on the provided input. It has been fine-tuned on the TasnimNews Dataset using the pretrained model pn-summary-mt5-small.
🚀 Quick Start
This model is designed to generate summaries based on the input provided. It leverages the power of the pre - trained model pn-summary-mt5-small and is fine - tuned on the TasnimNews Dataset.
💻 Usage Examples
Basic Usage
from transformers import AutoModelForSeq2SeqLM, MT5Tokenizer
model = AutoModelForSeq2SeqLM.from_pretrained('PardisSzah/Persian_Summarizer_MT5')
tokenizer = MT5Tokenizer.from_pretrained("PardisSzah/Persian_Summarizer_MT5")
text_to_summarize = """
احسان ارکانی نماینده مردم نیشابور در مجلس شورای اسلامی در گفتوگو با خبرنگار پارلمانی ، از ارائه طرح 2 فوریتی شفافیت قوای سهگانه
دستگاههای اجرایی و نهادهای عمومی غیردولتی به هیئت رئیسه مجلس خبر داد. نماینده نیشابور
در مجلس با بیان اینکه بیش از 200 تن از نمایندگان طرح شفافیت قوای سهگانه را امضا کردهاند،
گفت: با توجه به اینکه، این طرح با 2 فوریت تقدیم هیئت رئیسه شد طبق آییننامه داخلی مجلس باید هفته آینده در دستورکار مجلس قرار گیرد.
متن کامل طرح 2 فوریتی شفافیت قوای سهگانه دستگاههای اجرایی و نهادهای عمومی غیردولتی به شرح ذیل است:
مقدمه (دلایل توجیهی): نظر به اینکه نظام مقدس جمهوری اسلامی ایران به تعبیر امامین انقلاب اسلامی متکی بر آرای عمومی است و لازمه این موضوع
اعتماد عموم مردم به نمایندگان و مدیران و مسئولان اعم از انتخابی و انتصابی میباشد،
برای ارتقای سرمایه اجتماعی در جمهوری اسلامی ایران و تقویت باور عمومی که هیچ چیز از مردم پنهان نبوده
و تمامی مسئولان و دولتمردان و مدیران و نمایندگان در جمهوری اسلامی ایران به این امر باور دارند که
باید اطلاعات مربوط به حوزه فعالیت دستگاههای متبوع خود را به همراه مذاکرات و تصمیمات متخذه که قاعدتا بر حقوق تمامی مردم یا بخش عمدهای از جامعه اثرگذار است
در اختیار عموم مردم قرار دهند و امکان داوری را برای مردم فراهم سازند و اینکه تاکنون تلاشهای صورت گرفته در این راستا نتوانسته موفقتآمیز بوده
و بعضا به دلایل مختلف منجر به مخالفتهایی شده و بر همین اساس هم به نتیجه منتهی نشده است لذا (طرح شفافیت قوای سهگانه و دستگاههای اجرایی و سایر نهادها)
به منظور رفع خلاء قانونی و تحولی در نظام حکمرانی کشور تهیه و به شرح زیر برای امضای نمایندگان محترم و تصویب در صحن علنی مجلس تقدیم میگردد.
عنوان طرح: طرح شفافیت قوای سه گانه و دستگاههای اجرایی و سایر نهادها موضوع طرح
: الف) دامنه شمول قانون ماده 1- دستگاهها و نهادها و سازمان ها و موسسات مشمول این قانون
عبارتند از: 1-1- کلیه دستگاههای اجرایی موضوع آمده 5 قانون مدیریت خدمات کشوری؛ از جمله هیئت وزیران و کلیه کمیسیونها و دستگاههای متشکله مرکب از وزراء
یا مدیران دستگاههای دولتی و کلیه وزارتخانهها، سازمانها، موسسات، شرکتهای دولتی، موسسات انتفاعی وابسته به دولت، بانکها و موسسات اعتباری دولتی،
و همچنین دستگاههایی که شمول قانون بر آنها مستلزم ذکر یا تصریح نام است
، اعم از اینکه قانون خاص خود را داشته و یا از قوانین و مقررات عام تبعیت نمایند، از جمله شرکت ملی نفت ایران، شرکت ملی گاز ایران،
شرکت ملی صنایع پتروشیمی ایران، سازمان گسترش و نوسازی صنایع ایران، سازمان بنادر و کشتیرانی جمهوری اسلامی ایران،
سازمان صدا و سیمای جمهوری اسلامی ایران و تمام موسسات و شرکتهای تابع یا وابسته به آنها، دانشگاهها و موسسات آموزشی و
پژوهشی و موسسات و نهادهای عمومی غیر دولتی موضوع ماده 3 قانون مدیریت خدمات کشوری - مصوب 1386 - از جمله شهرداریها، کمیته امداد امام خمینی، هلال احمر جمهوری اسلامی ایران
و تمامی سازمانها، موسسات و شرکتهای تابع یا وابسته به آنها و شوراهای اسلامی شهر و روستا، بخش، شهرستان، استان و شورای عالی استانها. 1-2- قوه مقننه شامل مجلس شورای اسلامی،
دیوان محاسبات کشور و تمامی سازمانها، موسسات و شرکتهای تابع یا وابسته به آنها. 1-3- قوه قضائیه شامل دادسراها و دادگاههای دادگستری اعم از دادگاههای عمومی و ویژه،
سازمان بازرسی کل کشور، دیوان عدالت اداری، سازمان قضایی نیروهای مسلح و تمامی سازمانها، موسسات و شرکتهای تابع یا وابسته به آنها و همچنین شورای عالی حل اختلاف.
1-4- مجمع تشخیص مصلحت نظام، شورای عالی انقلاب فرهنگی، شورای عالی فضای مجازی و کلیه شوراهای عالی که به موجب قانون مصوب مجلس تشکیل شدهاند.
1-5- کلیه موسسات عهدهدار خدمات عمومی از جمله شامل کانونهای وکلای دادگستری، کانون کارشناسان رسمی دادگستری،
سازمان نظام پزشکی جمهوری اسلامی ایران، سازمانهای نظام مهندسی، اتاقهای بازرگانی، صنایع، معادن و کشاورزی ایران، اصناف و تعاون، دانشگاه آزاد اسلامی،
دانشگاهها و موسسات آموزش عالی، مدارس و موسسات اعتباری و شرکتهای بیمه غیر دولتی. ب) نحوه اقدام ماده 2- مشمولین این قانون موظفند داده ها
و اطلاعات عمومی و تصمیمات متخذه سازمان یا شورای متبوع خود را به موجب قوانین و مقررات از طریق سامانهةای مربوط به خود منتشر و اطلاعات رسانی نمایند
، به طوری که عدم بارگزاری هر کدام از اطلاعات، به معنای محرمانه بودن اطلاعات مربوط به حساب آید.
ماده 3- رئیس مجلس شورای اسلامی و رئیس قوه قضائیه موظفند مصادیق داده و اطلاعات عمومی در هر کدام
از نهادها و دستگاههای متبوع خود را علاوه بر مواردی که به عنوان اطلاعات عمومی در قانون انتشار و دسترسی آزاد به اطلاعات مشخص شده است معین کرده
و پس از 4 ماه از تصویب این قانون جهت دسترسی عمومی به این اطلاعات به کمیسیون انتشار و دسترسی آزاد به
اطلاعات ابلاغ نمایند. ماده 5: تمامی نهدهای شورایی کشور مشتمل بر مجلس شورای اسلامی، مجمع تشخیص مصلحت نظام، شوراهای شهر و روستاف شوراهای عالی کشور موظفند
مشروح مذاکرات خود را اعم از صحن و کمیسیونهای تابع آنها و آرای ماخوذه از اعضا را بلافاصله در پایگاه اطلاعرسانی خود منتشر نمایند.
آییننامه محرمانگی و غیرعلنی بودن جلسات هر کدام از نهادها و شوراها پس از سه ماه از تصویب این قانون باید تعیین و پس از تصویب شورای امنیت ملی به اطلاع عموم رسانده شود
. ماده 6: وزارت ارتباطات و فناوری اطلاعات موظف است ظرف سه ماه از تاریخ لازمالاجرا شدن این قانون،
با همکاری سازمان اداری و استخدامی کشور و دستگاههای ذیربط، ضوابط ایجاد، نگهداری و
اشتراکگذاری اطلاعات شامل طراحی فرمها و قالبهای مورد قبول اسناد را برای تمامی دستگاهها و نهادهای مشمول این قانون، به گونهای تدوین کند
و پس از تصویب شورای اجرای فناوری اطلاعات با تایید شورای امنیت ملی، جهت اجرا ابلاغ نماید که اطلاعات منتشر یا به اشتراک گذاشته شده
توسط موسسات مشمول بدون وابستگی به فناوریهای خاص توسط نرمافزارهای متنوع قابل استفاده و پردازش باشند.
همچنین، ضوابط ایجاد، اداره و بهروزرسانی پایگاه های اطلاعرسانی موسسات مشمول را از جهت محتوا، سهولت و نحوه دسترسی کاربران،
قابل اعتماد بودن و قابل فهم بودن برای عموم مردم، توسط وزارت ارتباطات و فناوری اطلاعات تهیه شده، پس از تصویب شورای اجرایی فناوری اطلاعات جهت اجرا ابلاغ میگردد.
ماده 7: عدم اجرا یا اجرای ناقص تکالیف مقرر در این قانون با انتشار اطلاعات مغایر مفاد
این قانون تخلف محسوب و متخلف یا متخلفان حسب مورد بر اساس رای هیئتهای رسیدگی به تخلفات اداری و با توجه به اهمیت موضوع به یکی از مجازاتهای اداری مقرر
در بندهای (ج) تا (ی) ماده (9) قانون رسیدگی به تخلفات اداری - مصوب 1372 - یا مجازات متناسب مطابق قوانین مربوط محکوم میشوند. انتهای پیام/
"""
inputs = tokenizer(text_to_summarize, truncation=True, max_length=256, padding='max_length', return_tensors="pt")
# Now you can generate the summary
summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=64, early_stopping=True)
# Decode the summary
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
# output: نماینده نیشابور در مجلس از ارائه طرح ۲ فوریتی شفافیت قوای سه گانه دستگاه های اجرایی و نهادهای عمومی غیردولتی به هیئت رئیسه مجلس خبر داد.
Advanced Usage
# This code demonstrates how to generate a summary using the model. You can adjust parameters according to your specific needs.
from transformers import AutoModelForSeq2SeqLM, MT5Tokenizer
model = AutoModelForSeq2SeqLM.from_pretrained('PardisSzah/Persian_Summarizer_MT5')
tokenizer = MT5Tokenizer.from_pretrained("PardisSzah/Persian_Summarizer_MT5")
text_to_summarize = """Your long text here"""
inputs = tokenizer(text_to_summarize, truncation=True, max_length=256, padding='max_length', return_tensors="pt")
# Adjust parameters for better results
summary_ids = model.generate(inputs['input_ids'], num_beams=8, max_length=128, early_stopping=True, length_penalty=2.0)
# Decode the summary
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
📄 License
This project is licensed under the MIT License.
Bart Large Cnn
MIT
BART model pre-trained on English corpus, specifically fine-tuned for the CNN/Daily Mail dataset, suitable for text summarization tasks
Text Generation English
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot is a T5-based paraphrasing framework designed to accelerate the training of Natural Language Understanding (NLU) models through high-quality paraphrase generation for data augmentation.
Text Generation
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART is a distilled version of the BART model, specifically optimized for text summarization tasks, significantly improving inference speed while maintaining high performance.
Text Generation English
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
A T5-based model specialized in extracting atomic claims from summary texts, serving as a key component in summary factuality assessment pipelines.
Text Generation
Transformers English

T
Babelscape
666.36k
9
Unieval Sum
UniEval is a unified multidimensional evaluator for automatic evaluation of natural language generation tasks, supporting assessment across multiple interpretable dimensions.
Text Generation
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
A text paraphrasing model fine-tuned based on the PEGASUS architecture, capable of generating sentences with the same meaning but different expressions.
Text Generation
Transformers English

P
tuner007
209.03k
185
T5 Base Korean Summarization
This is a Korean text summarization model based on the T5 architecture, specifically designed for Korean text summarization tasks. It is trained on multiple Korean datasets by fine-tuning the paust/pko-t5-base model.
Text Generation
Transformers Korean

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS is a Transformer-based pretrained model specifically designed for abstractive text summarization tasks.
Text Generation English
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
A dialogue summarization model based on the BART-large architecture, fine-tuned specifically for the SAMSum corpus, suitable for generating dialogue summaries.
Text Generation
Transformers English

B
philschmid
141.28k
258
Kobart Summarization
MIT
A Korean text summarization model based on the KoBART architecture, capable of generating concise summaries of Korean news articles.
Text Generation
Transformers Korean

K
gogamza
119.18k
12
Featured Recommended AI Models