Persian Summarizer MT5
模型简介
该模型专门用于生成波斯语文本的摘要,基于预训练模型pn-summary-mt5-small在TasnimNews数据集上进行微调
模型特点
波斯语优化
专门针对波斯语文本进行优化和微调
新闻摘要
在新闻数据集上训练,特别适合新闻文本摘要
轻量级模型
基于MT5-small架构,相对轻量且高效
模型能力
波斯语文本摘要
新闻内容浓缩
长文本压缩
使用案例
新闻处理
新闻摘要生成
自动生成波斯语新闻文章的简短摘要
生成简洁准确的新闻要点
内容分析
文档关键信息提取
从长文档中提取核心内容
帮助快速理解文档主旨
🚀 TasnimSum - MT5 摘要生成模型
TasnimSum - MT5 模型经过微调,能够根据输入内容生成精准的摘要。它基于预训练模型 pn - summary - mt5 - small,在 TasnimNews 数据集 上进行了微调训练,为文本摘要任务提供了高效的解决方案。
🚀 快速开始
本模型可用于生成输入文本的摘要,以下是使用该模型的基本步骤。
📦 安装指南
使用此模型前,你需要安装 transformers
库,可通过以下命令进行安装:
pip install transformers
💻 使用示例
基础用法
from transformers import AutoModelForSeq2SeqLM, MT5Tokenizer
model = AutoModelForSeq2SeqLM.from_pretrained('PardisSzah/Persian_Summarizer_MT5')
tokenizer = MT5Tokenizer.from_pretrained("PardisSzah/Persian_Summarizer_MT5")
text_to_summarize = """
احسان ارکانی نماینده مردم نیشابور در مجلس شورای اسلامی در گفتوگو با خبرنگار پارلمانی ، از ارائه طرح 2 فوریتی شفافیت قوای سهگانه
دستگاههای اجرایی و نهادهای عمومی غیردولتی به هیئت رئیسه مجلس خبر داد. نماینده نیشابور
در مجلس با بیان اینکه بیش از 200 تن از نمایندگان طرح شفافیت قوای سهگانه را امضا کردهاند،
گفت: با توجه به اینکه، این طرح با 2 فوریت تقدیم هیئت رئیسه شد طبق آییننامه داخلی مجلس باید هفته آینده در دستورکار مجلس قرار گیرد.
متن کامل طرح 2 فوریتی شفافیت قوای سهگانه دستگاههای اجرایی و نهادهای عمومی غیردولتی به شرح ذیل است:
مقدمه (دلایل توجیهی): نظر به اینکه نظام مقدس جمهوری اسلامی ایران به تعبیر امامین انقلاب اسلامی متکی بر آرای عمومی است و لازمه این موضوع
اعتماد عموم مردم به نمایندگان و مدیران و مسئولان اعم از انتخابی و انتصابی میباشد،
برای ارتقای سرمایه اجتماعی در جمهوری اسلامی ایران و تقویت باور عمومی که هیچ چیز از مردم پنهان نبوده
و تمامی مسئولان و دولتمردان و مدیران و نمایندگان در جمهوری اسلامی ایران به این امر باور دارند که
باید اطلاعات مربوط به حوزه فعالیت دستگاههای متبوع خود را به همراه مذاکرات و تصمیمات متخذه که قاعدتا بر حقوق تمامی مردم یا بخش عمدهای از جامعه اثرگذار است
در اختیار عموم مردم قرار دهند و امکان داوری را برای مردم فراهم سازند و اینکه تاکنون تلاشهای صورت گرفته در این راستا نتوانسته موفقتآمیز بوده
و بعضا به دلایل مختلف منجر به مخالفتهایی شده و بر همین اساس هم به نتیجه منتهی نشده است لذا (طرح شفافیت قوای سهگانه و دستگاههای اجرایی و سایر نهادها)
به منظور رفع خلاء قانونی و تحولی در نظام حکمرانی کشور تهیه و به شرح زیر برای امضای نمایندگان محترم و تصویب در صحن علنی مجلس تقدیم میگردد.
عنوان طرح: طرح شفافیت قوای سه گانه و دستگاههای اجرایی و سایر نهادها موضوع طرح
: الف) دامنه شمول قانون ماده 1- دستگاهها و نهادها و سازمان ها و موسسات مشمول این قانون
عبارتند از: 1-1- کلیه دستگاههای اجرایی موضوع آمده 5 قانون مدیریت خدمات کشوری؛ از جمله هیئت وزیران و کلیه کمیسیونها و دستگاههای متشکله مرکب از وزراء
یا مدیران دستگاههای دولتی و کلیه وزارتخانهها، سازمانها، موسسات، شرکتهای دولتی، موسسات انتفاعی وابسته به دولت، بانکها و موسسات اعتباری دولتی،
و همچنین دستگاههایی که شمول قانون بر آنها مستلزم ذکر یا تصریح نام است
، اعم از اینکه قانون خاص خود را داشته و یا از قوانین و مقررات عام تبعیت نمایند، از جمله شرکت ملی نفت ایران، شرکت ملی گاز ایران،
شرکت ملی صنایع پتروشیمی ایران، سازمان گسترش و نوسازی صنایع ایران، سازمان بنادر و کشتیرانی جمهوری اسلامی ایران،
سازمان صدا و سیمای جمهوری اسلامی ایران و تمام موسسات و شرکتهای تابع یا وابسته به آنها، دانشگاهها و موسسات آموزشی و
پژوهشی و موسسات و نهادهای عمومی غیر دولتی موضوع ماده 3 قانون مدیریت خدمات کشوری - مصوب 1386 - از جمله شهرداریها، کمیته امداد امام خمینی، هلال احمر جمهوری اسلامی ایران
و تمامی سازمانها، موسسات و شرکتهای تابع یا وابسته به آنها و شوراهای اسلامی شهر و روستا، بخش، شهرستان، استان و شورای عالی استانها. 1-2- قوه مقننه شامل مجلس شورای اسلامی،
دیوان محاسبات کشور و تمامی سازمانها، موسسات و شرکتهای تابع یا وابسته به آنها. 1-3- قوه قضائیه شامل دادسراها و دادگاههای دادگستری اعم از دادگاههای عمومی و ویژه،
سازمان بازرسی کل کشور، دیوان عدالت اداری، سازمان قضایی نیروهای مسلح و تمامی سازمانها، موسسات و شرکتهای تابع یا وابسته به آنها و همچنین شورای عالی حل اختلاف.
1-4- مجمع تشخیص مصلحت نظام، شورای عالی انقلاب فرهنگی، شورای عالی فضای مجازی و کلیه شوراهای عالی که به موجب قانون مصوب مجلس تشکیل شدهاند.
1-5- کلیه موسسات عهدهدار خدمات عمومی از جمله شامل کانونهای وکلای دادگستری، کانون کارشناسان رسمی دادگستری،
سازمان نظام پزشکی جمهوری اسلامی ایران، سازمانهای نظام مهندسی، اتاقهای بازرگانی، صنایع، معادن و کشاورزی ایران، اصناف و تعاون، دانشگاه آزاد اسلامی،
دانشگاهها و موسسات آموزش عالی، مدارس و موسسات اعتباری و شرکتهای بیمه غیر دولتی. ب) نحوه اقدام ماده 2- مشمولین این قانون موظفند داده ها
و اطلاعات عمومی و تصمیمات متخذه سازمان یا شورای متبوع خود را به موجب قوانین و مقررات از طریق سامانهةای مربوط به خود منتشر و اطلاعات رسانی نمایند
، به طوری که عدم بارگزاری هر کدام از اطلاعات، به معنای محرمانه بودن اطلاعات مربوط به حساب آید.
ماده 3- رئیس مجلس شورای اسلامی و رئیس قوه قضائیه موظفند مصادیق داده و اطلاعات عمومی در هر کدام
از نهادها و دستگاههای متبوع خود را علاوه بر مواردی که به عنوان اطلاعات عمومی در قانون انتشار و دسترسی آزاد به اطلاعات مشخص شده است معین کرده
و پس از 4 ماه از تصویب این قانون جهت دسترسی عمومی به این اطلاعات به کمیسیون انتشار و دسترسی آزاد به
اطلاعات ابلاغ نمایند. ماده 5: تمامی نهدهای شورایی کشور مشتمل بر مجلس شورای اسلامی، مجمع تشخیص مصلحت نظام، شوراهای شهر و روستاف شوراهای عالی کشور موظفند
مشروح مذاکرات خود را اعم از صحن و کمیسیونهای تابع آنها و آرای ماخوذه از اعضا را بلافاصله در پایگاه اطلاعرسانی خود منتشر نمایند.
آییننامه محرمانگی و غیرعلنی بودن جلسات هر کدام از نهادها و شوراها پس از سه ماه از تصویب این قانون باید تعیین و پس از تصویب شورای امنیت ملی به اطلاع عموم رسانده شود
. ماده 6: وزارت ارتباطات و فناوری اطلاعات موظف است ظرف سه ماه از تاریخ لازمالاجرا شدن این قانون،
با همکاری سازمان اداری و استخدامی کشور و دستگاههای ذیربط، ضوابط ایجاد، نگهداری و
اشتراکگذاری اطلاعات شامل طراحی فرمها و قالبهای مورد قبول اسناد را برای تمامی دستگاهها و نهادهای مشمول این قانون، به گونهای تدوین کند
و پس از تصویب شورای اجرای فناوری اطلاعات با تایید شورای امنیت ملی، جهت اجرا ابلاغ نماید که اطلاعات منتشر یا به اشتراک گذاشته شده
توسط موسسات مشمول بدون وابستگی به فناوریهای خاص توسط نرمافزارهای متنوع قابل استفاده و پردازش باشند.
همچنین، ضوابط ایجاد، اداره و بهروزرسانی پایگاه های اطلاعرسانی موسسات مشمول را از جهت محتوا، سهولت و نحوه دسترسی کاربران،
قابل اعتماد بودن و قابل فهم بودن برای عموم مردم، توسط وزارت ارتباطات و فناوری اطلاعات تهیه شده، پس از تصویب شورای اجرایی فناوری اطلاعات جهت اجرا ابلاغ میگردد.
ماده 7: عدم اجرا یا اجرای ناقص تکالیف مقرر در این قانون با انتشار اطلاعات مغایر مفاد
این قانون تخلف محسوب و متخلف یا متخلفان حسب مورد بر اساس رای هیئتهای رسیدگی به تخلفات اداری و با توجه به اهمیت موضوع به یکی از مجازاتهای اداری مقرر
در بندهای (ج) تا (ی) ماده (9) قانون رسیدگی به تخلفات اداری - مصوب 1372 - یا مجازات متناسب مطابق قوانین مربوط محکوم میشوند. انتهای پیام/
"""
inputs = tokenizer(text_to_summarize, truncation=True, max_length=256, padding='max_length', return_tensors="pt")
# Now you can generate the summary
summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=64, early_stopping=True)
# Decode the summary
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
# output: نماینده نیشابور در مجلس از ارائه طرح ۲ فوریتی شفافیت قوای سه گانه دستگاه های اجرایی و نهادهای عمومی غیردولتی به هیئت رئیسه مجلس خبر داد.
高级用法
在实际应用中,你可以根据具体需求调整 generate
方法的参数,以获得不同风格和长度的摘要。例如,调整 num_beams
可以改变束搜索的宽度,max_length
可以控制生成摘要的最大长度。以下是一个简单的示例:
# 调整参数以生成不同的摘要
summary_ids = model.generate(inputs['input_ids'], num_beams=6, max_length=80, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
📄 许可证
本项目采用 MIT 许可证。
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成 英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成 英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers 英语

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers 英语

P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers 韩语

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成 英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers 英语

B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers 韩语

K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98