Persian Summarizer MT5
模型概述
該模型專門用於生成波斯語文本的摘要,基於預訓練模型pn-summary-mt5-small在TasnimNews數據集上進行微調
模型特點
波斯語優化
專門針對波斯語文本進行優化和微調
新聞摘要
在新聞數據集上訓練,特別適合新聞文本摘要
輕量級模型
基於MT5-small架構,相對輕量且高效
模型能力
波斯語文本摘要
新聞內容濃縮
長文本壓縮
使用案例
新聞處理
新聞摘要生成
自動生成波斯語新聞文章的簡短摘要
生成簡潔準確的新聞要點
內容分析
文檔關鍵信息提取
從長文檔中提取核心內容
幫助快速理解文檔主旨
🚀 TasnimSum - MT5 摘要生成模型
TasnimSum - MT5 模型經過微調,能夠根據輸入內容生成精準的摘要。它基於預訓練模型 pn - summary - mt5 - small,在 TasnimNews 數據集 上進行了微調訓練,為文本摘要任務提供了高效的解決方案。
🚀 快速開始
本模型可用於生成輸入文本的摘要,以下是使用該模型的基本步驟。
📦 安裝指南
使用此模型前,你需要安裝 transformers
庫,可通過以下命令進行安裝:
pip install transformers
💻 使用示例
基礎用法
from transformers import AutoModelForSeq2SeqLM, MT5Tokenizer
model = AutoModelForSeq2SeqLM.from_pretrained('PardisSzah/Persian_Summarizer_MT5')
tokenizer = MT5Tokenizer.from_pretrained("PardisSzah/Persian_Summarizer_MT5")
text_to_summarize = """
احسان ارکانی نماینده مردم نیشابور در مجلس شورای اسلامی در گفتوگو با خبرنگار پارلمانی ، از ارائه طرح 2 فوریتی شفافیت قوای سهگانه
دستگاههای اجرایی و نهادهای عمومی غیردولتی به هیئت رئیسه مجلس خبر داد. نماینده نیشابور
در مجلس با بیان اینکه بیش از 200 تن از نمایندگان طرح شفافیت قوای سهگانه را امضا کردهاند،
گفت: با توجه به اینکه، این طرح با 2 فوریت تقدیم هیئت رئیسه شد طبق آییننامه داخلی مجلس باید هفته آینده در دستورکار مجلس قرار گیرد.
متن کامل طرح 2 فوریتی شفافیت قوای سهگانه دستگاههای اجرایی و نهادهای عمومی غیردولتی به شرح ذیل است:
مقدمه (دلایل توجیهی): نظر به اینکه نظام مقدس جمهوری اسلامی ایران به تعبیر امامین انقلاب اسلامی متکی بر آرای عمومی است و لازمه این موضوع
اعتماد عموم مردم به نمایندگان و مدیران و مسئولان اعم از انتخابی و انتصابی میباشد،
برای ارتقای سرمایه اجتماعی در جمهوری اسلامی ایران و تقویت باور عمومی که هیچ چیز از مردم پنهان نبوده
و تمامی مسئولان و دولتمردان و مدیران و نمایندگان در جمهوری اسلامی ایران به این امر باور دارند که
باید اطلاعات مربوط به حوزه فعالیت دستگاههای متبوع خود را به همراه مذاکرات و تصمیمات متخذه که قاعدتا بر حقوق تمامی مردم یا بخش عمدهای از جامعه اثرگذار است
در اختیار عموم مردم قرار دهند و امکان داوری را برای مردم فراهم سازند و اینکه تاکنون تلاشهای صورت گرفته در این راستا نتوانسته موفقتآمیز بوده
و بعضا به دلایل مختلف منجر به مخالفتهایی شده و بر همین اساس هم به نتیجه منتهی نشده است لذا (طرح شفافیت قوای سهگانه و دستگاههای اجرایی و سایر نهادها)
به منظور رفع خلاء قانونی و تحولی در نظام حکمرانی کشور تهیه و به شرح زیر برای امضای نمایندگان محترم و تصویب در صحن علنی مجلس تقدیم میگردد.
عنوان طرح: طرح شفافیت قوای سه گانه و دستگاههای اجرایی و سایر نهادها موضوع طرح
: الف) دامنه شمول قانون ماده 1- دستگاهها و نهادها و سازمان ها و موسسات مشمول این قانون
عبارتند از: 1-1- کلیه دستگاههای اجرایی موضوع آمده 5 قانون مدیریت خدمات کشوری؛ از جمله هیئت وزیران و کلیه کمیسیونها و دستگاههای متشکله مرکب از وزراء
یا مدیران دستگاههای دولتی و کلیه وزارتخانهها، سازمانها، موسسات، شرکتهای دولتی، موسسات انتفاعی وابسته به دولت، بانکها و موسسات اعتباری دولتی،
و همچنین دستگاههایی که شمول قانون بر آنها مستلزم ذکر یا تصریح نام است
، اعم از اینکه قانون خاص خود را داشته و یا از قوانین و مقررات عام تبعیت نمایند، از جمله شرکت ملی نفت ایران، شرکت ملی گاز ایران،
شرکت ملی صنایع پتروشیمی ایران، سازمان گسترش و نوسازی صنایع ایران، سازمان بنادر و کشتیرانی جمهوری اسلامی ایران،
سازمان صدا و سیمای جمهوری اسلامی ایران و تمام موسسات و شرکتهای تابع یا وابسته به آنها، دانشگاهها و موسسات آموزشی و
پژوهشی و موسسات و نهادهای عمومی غیر دولتی موضوع ماده 3 قانون مدیریت خدمات کشوری - مصوب 1386 - از جمله شهرداریها، کمیته امداد امام خمینی، هلال احمر جمهوری اسلامی ایران
و تمامی سازمانها، موسسات و شرکتهای تابع یا وابسته به آنها و شوراهای اسلامی شهر و روستا، بخش، شهرستان، استان و شورای عالی استانها. 1-2- قوه مقننه شامل مجلس شورای اسلامی،
دیوان محاسبات کشور و تمامی سازمانها، موسسات و شرکتهای تابع یا وابسته به آنها. 1-3- قوه قضائیه شامل دادسراها و دادگاههای دادگستری اعم از دادگاههای عمومی و ویژه،
سازمان بازرسی کل کشور، دیوان عدالت اداری، سازمان قضایی نیروهای مسلح و تمامی سازمانها، موسسات و شرکتهای تابع یا وابسته به آنها و همچنین شورای عالی حل اختلاف.
1-4- مجمع تشخیص مصلحت نظام، شورای عالی انقلاب فرهنگی، شورای عالی فضای مجازی و کلیه شوراهای عالی که به موجب قانون مصوب مجلس تشکیل شدهاند.
1-5- کلیه موسسات عهدهدار خدمات عمومی از جمله شامل کانونهای وکلای دادگستری، کانون کارشناسان رسمی دادگستری،
سازمان نظام پزشکی جمهوری اسلامی ایران، سازمانهای نظام مهندسی، اتاقهای بازرگانی، صنایع، معادن و کشاورزی ایران، اصناف و تعاون، دانشگاه آزاد اسلامی،
دانشگاهها و موسسات آموزش عالی، مدارس و موسسات اعتباری و شرکتهای بیمه غیر دولتی. ب) نحوه اقدام ماده 2- مشمولین این قانون موظفند داده ها
و اطلاعات عمومی و تصمیمات متخذه سازمان یا شورای متبوع خود را به موجب قوانین و مقررات از طریق سامانهةای مربوط به خود منتشر و اطلاعات رسانی نمایند
، به طوری که عدم بارگزاری هر کدام از اطلاعات، به معنای محرمانه بودن اطلاعات مربوط به حساب آید.
ماده 3- رئیس مجلس شورای اسلامی و رئیس قوه قضائیه موظفند مصادیق داده و اطلاعات عمومی در هر کدام
از نهادها و دستگاههای متبوع خود را علاوه بر مواردی که به عنوان اطلاعات عمومی در قانون انتشار و دسترسی آزاد به اطلاعات مشخص شده است معین کرده
و پس از 4 ماه از تصویب این قانون جهت دسترسی عمومی به این اطلاعات به کمیسیون انتشار و دسترسی آزاد به
اطلاعات ابلاغ نمایند. ماده 5: تمامی نهدهای شورایی کشور مشتمل بر مجلس شورای اسلامی، مجمع تشخیص مصلحت نظام، شوراهای شهر و روستاف شوراهای عالی کشور موظفند
مشروح مذاکرات خود را اعم از صحن و کمیسیونهای تابع آنها و آرای ماخوذه از اعضا را بلافاصله در پایگاه اطلاعرسانی خود منتشر نمایند.
آییننامه محرمانگی و غیرعلنی بودن جلسات هر کدام از نهادها و شوراها پس از سه ماه از تصویب این قانون باید تعیین و پس از تصویب شورای امنیت ملی به اطلاع عموم رسانده شود
. ماده 6: وزارت ارتباطات و فناوری اطلاعات موظف است ظرف سه ماه از تاریخ لازمالاجرا شدن این قانون،
با همکاری سازمان اداری و استخدامی کشور و دستگاههای ذیربط، ضوابط ایجاد، نگهداری و
اشتراکگذاری اطلاعات شامل طراحی فرمها و قالبهای مورد قبول اسناد را برای تمامی دستگاهها و نهادهای مشمول این قانون، به گونهای تدوین کند
و پس از تصویب شورای اجرای فناوری اطلاعات با تایید شورای امنیت ملی، جهت اجرا ابلاغ نماید که اطلاعات منتشر یا به اشتراک گذاشته شده
توسط موسسات مشمول بدون وابستگی به فناوریهای خاص توسط نرمافزارهای متنوع قابل استفاده و پردازش باشند.
همچنین، ضوابط ایجاد، اداره و بهروزرسانی پایگاه های اطلاعرسانی موسسات مشمول را از جهت محتوا، سهولت و نحوه دسترسی کاربران،
قابل اعتماد بودن و قابل فهم بودن برای عموم مردم، توسط وزارت ارتباطات و فناوری اطلاعات تهیه شده، پس از تصویب شورای اجرایی فناوری اطلاعات جهت اجرا ابلاغ میگردد.
ماده 7: عدم اجرا یا اجرای ناقص تکالیف مقرر در این قانون با انتشار اطلاعات مغایر مفاد
این قانون تخلف محسوب و متخلف یا متخلفان حسب مورد بر اساس رای هیئتهای رسیدگی به تخلفات اداری و با توجه به اهمیت موضوع به یکی از مجازاتهای اداری مقرر
در بندهای (ج) تا (ی) ماده (9) قانون رسیدگی به تخلفات اداری - مصوب 1372 - یا مجازات متناسب مطابق قوانین مربوط محکوم میشوند. انتهای پیام/
"""
inputs = tokenizer(text_to_summarize, truncation=True, max_length=256, padding='max_length', return_tensors="pt")
# Now you can generate the summary
summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=64, early_stopping=True)
# Decode the summary
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
# output: نماینده نیشابور در مجلس از ارائه طرح ۲ فوریتی شفافیت قوای سه گانه دستگاه های اجرایی و نهادهای عمومی غیردولتی به هیئت رئیسه مجلس خبر داد.
高級用法
在實際應用中,你可以根據具體需求調整 generate
方法的參數,以獲得不同風格和長度的摘要。例如,調整 num_beams
可以改變束搜索的寬度,max_length
可以控制生成摘要的最大長度。以下是一個簡單的示例:
# 調整參數以生成不同的摘要
summary_ids = model.generate(inputs['input_ids'], num_beams=6, max_length=80, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
📄 許可證
本項目採用 MIT 許可證。
Bart Large Cnn
MIT
基於英語語料預訓練的BART模型,專門針對CNN每日郵報數據集進行微調,適用於文本摘要任務
文本生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一個基於T5的釋義框架,專為加速訓練自然語言理解(NLU)模型而設計,通過生成高質量釋義實現數據增強。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸餾版本,專門針對文本摘要任務進行了優化,在保持較高性能的同時顯著提升了推理速度。
文本生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基於T5架構的模型,專門用於從摘要文本中提取原子聲明,是摘要事實性評估流程的關鍵組件。
文本生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一個統一的多維評估器,用於自然語言生成任務的自動評估,支持多個可解釋維度的評估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基於PEGASUS架構微調的文本複述模型,能夠生成語義相同但表達不同的句子。
文本生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
這是一個基於T5架構的韓語文本摘要模型,專為韓語文本摘要任務設計,通過微調paust/pko-t5-base模型在多個韓語數據集上訓練而成。
文本生成
Transformers 韓語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一種基於Transformer的預訓練模型,專門用於抽象文本摘要任務。
文本生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基於BART-large架構的對話摘要模型,專為SAMSum語料庫微調,適用於生成對話摘要。
文本生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
基於KoBART架構的韓語文本摘要模型,能夠生成韓語新聞文章的簡潔摘要。
文本生成
Transformers 韓語

K
gogamza
119.18k
12
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98