Persian Summarizer MT5
MT5アーキテクチャに基づくペルシア語テキスト要約モデル、TasnimNewsデータセットでファインチューニング
ダウンロード数 17
リリース時間 : 2/9/2024
モデル概要
このモデルはペルシア語テキストの要約生成に特化しており、事前学習モデルpn-summary-mt5-smallをTasnimNewsデータセットでファインチューニング
モデル特徴
ペルシア語最適化
ペルシア語テキストに特化して最適化およびファインチューニング
ニュース要約
ニュースデータセットで訓練され、ニューステキストの要約に特に適している
軽量モデル
MT5-smallアーキテクチャに基づき、比較的軽量で効率的
モデル能力
ペルシア語テキスト要約
ニュース内容の濃縮
長文の圧縮
使用事例
ニュース処理
ニュース要約生成
ペルシア語ニュース記事の短い要約を自動生成
簡潔で正確なニュースの要点を生成
コンテンツ分析
ドキュメントのキー情報抽出
長文ドキュメントから核心内容を抽出
ドキュメントの主旨を迅速に理解するのに役立つ
🚀 TasnimSum - MT5 要約
このモデルは、提供された入力に基づいて要約を生成するようにファインチューニングされています。事前学習済みモデル pn - summary - mt5 - small を使用して、TasnimNews データセット でファインチューニングされています。
🚀 クイックスタート
このモデルを使用することで、入力されたテキストの要約を生成できます。以下に使用方法を説明します。
💻 使用例
基本的な使用法
from transformers import AutoModelForSeq2SeqLM, MT5Tokenizer
model = AutoModelForSeq2SeqLM.from_pretrained('PardisSzah/Persian_Summarizer_MT5')
tokenizer = MT5Tokenizer.from_pretrained("PardisSzah/Persian_Summarizer_MT5")
text_to_summarize = """
احسان ارکانی نماینده مردم نیشابور در مجلس شورای اسلامی در گفتوگو با خبرنگار پارلمانی ، از ارائه طرح 2 فوریتی شفافیت قوای سهگانه
دستگاههای اجرایی و نهادهای عمومی غیردولتی به هیئت رئیسه مجلس خبر داد. نماینده نیشابور
در مجلس با بیان اینکه بیش از 200 تن از نمایندگان طرح شفافیت قوای سهگانه را امضا کردهاند،
گفت: با توجه به اینکه، این طرح با 2 فوریت تقدیم هیئت رئیسه شد طبق آییننامه داخلی مجلس باید هفته آینده در دستورکار مجلس قرار گیرد.
متن کامل طرح 2 فوریتی شفافیت قوای سهگانه دستگاههای اجرایی و نهادهای عمومی غیردولتی به شرح ذیل است:
مقدمه (دلایل توجیهی): نظر به اینکه نظام مقدس جمهوری اسلامی ایران به تعبیر امامین انقلاب اسلامی متکی بر آرای عمومی است و لازمه این موضوع
اعتماد عموم مردم به نمایندگان و مدیران و مسئولان اعم از انتخابی و انتصابی میباشد،
برای ارتقای سرمایه اجتماعی در جمهوری اسلامی ایران و تقویت باور عمومی که هیچ چیز از مردم پنهان نبوده
و تمامی مسئولان و دولتمردان و مدیران و نمایندگان در جمهوری اسلامی ایران به این امر باور دارند که
باید اطلاعات مربوط به حوزه فعالیت دستگاههای متبوع خود را به همراه مذاکرات و تصمیمات متخذه که قاعدتا بر حقوق تمامی مردم یا بخش عمدهای از جامعه اثرگذار است
در اختیار عموم مردم قرار دهند و امکان داوری را برای مردم فراهم سازند و اینکه تاکنون تلاشهای صورت گرفته در این راستا نتوانسته موفقتآمیز بوده
و بعضا به دلایل مختلف منجر به مخالفتهایی شده و بر همین اساس هم به نتیجه منتهی نشده است لذا (طرح شفافیت قوای سهگانه و دستگاههای اجرایی و سایر نهادها)
به منظور رفع خلاء قانونی و تحولی در نظام حکمرانی کشور تهیه و به شرح زیر برای امضای نمایندگان محترم و تصویب در صحن علنی مجلس تقدیم میگردد.
عنوان طرح: طرح شفافیت قوای سه گانه و دستگاههای اجرایی و سایر نهادها موضوع طرح
: الف) دامنه شمول قانون ماده 1- دستگاهها و نهادها و سازمان ها و موسسات مشمول این قانون
عبارتند از: 1-1- کلیه دستگاههای اجرایی موضوع آمده 5 قانون مدیریت خدمات کشوری؛ از جمله هیئت وزیران و کلیه کمیسیونها و دستگاههای متشکله مرکب از وزراء
یا مدیران دستگاههای دولتی و کلیه وزارتخانهها، سازمانها، موسسات، شرکتهای دولتی، موسسات انتفاعی وابسته به دولت، بانکها و موسسات اعتباری دولتی،
و همچنین دستگاههایی که شمول قانون بر آنها مستلزم ذکر یا تصریح نام است
، اعم از اینکه قانون خاص خود را داشته و یا از قوانین و مقررات عام تبعیت نمایند، از جمله شرکت ملی نفت ایران، شرکت ملی گاز ایران،
شرکت ملی صنایع پتروشیمی ایران، سازمان گسترش و نوسازی صنایع ایران، سازمان بنادر و کشتیرانی جمهوری اسلامی ایران،
سازمان صدا و سیمای جمهوری اسلامی ایران و تمام موسسات و شرکتهای تابع یا وابسته به آنها، دانشگاهها و موسسات آموزشی و
پژوهشی و موسسات و نهادهای عمومی غیر دولتی موضوع ماده 3 قانون مدیریت خدمات کشوری - مصوب 1386 - از جمله شهرداریها، کمیته امداد امام خمینی، هلال احمر جمهوری اسلامی ایران
و تمامی سازمانها، موسسات و شرکتهای تابع یا وابسته به آنها و شوراهای اسلامی شهر و روستا، بخش، شهرستان، استان و شورای عالی استانها. 1-2- قوه مقننه شامل مجلس شورای اسلامی،
دیوان محاسبات کشور و تمامی سازمانها، موسسات و شرکتهای تابع یا وابسته به آنها. 1-3- قوه قضائیه شامل دادسراها و دادگاههای دادگستری اعم از دادگاههای عمومی و ویژه،
سازمان بازرسی کل کشور، دیوان عدالت اداری، سازمان قضایی نیروهای مسلح و تمامی سازمانها، موسسات و شرکتهای تابع یا وابسته به آنها و همچنین شورای عالی حل اختلاف.
1-4- مجمع تشخیص مصلحت نظام، شورای عالی انقلاب فرهنگی، شورای عالی فضای مجازی و کلیه شوراهای عالی که به موجب قانون مصوب مجلس تشکیل شدهاند.
1-5- کلیه موسسات عهدهدار خدمات عمومی از جمله شامل کانونهای وکلای دادگستری، کانون کارشناسان رسمی دادگستری،
سازمان نظام پزشکی جمهوری اسلامی ایران، سازمانهای نظام مهندسی، اتاقهای بازرگانی، صنایع، معادن و کشاورزی ایران، اصناف و تعاون، دانشگاه آزاد اسلامی،
دانشگاهها و موسسات آموزش عالی، مدارس و موسسات اعتباری و شرکتهای بیمه غیر دولتی. ب) نحوه اقدام ماده 2- مشمولین این قانون موظفند داده ها
و اطلاعات عمومی و تصمیمات متخذه سازمان یا شورای متبوع خود را به موجب قوانین و مقررات از طریق سامانهةای مربوط به خود منتشر و اطلاعات رسانی نمایند
، به طوری که عدم بارگزاری هر کدام از اطلاعات، به معنای محرمانه بودن اطلاعات مربوط به حساب آید.
ماده 3- رئیس مجلس شورای اسلامی و رئیس قوه قضائیه موظفند مصادیق داده و اطلاعات عمومی در هر کدام
از نهادها و دستگاههای متبوع خود را علاوه بر مواردی که به عنوان اطلاعات عمومی در قانون انتشار و دسترسی آزاد به اطلاعات مشخص شده است معین کرده
و پس از 4 ماه از تصویب این قانون جهت دسترسی عمومی به این اطلاعات به کمیسیون انتشار و دسترسی آزاد به
اطلاعات ابلاغ نمایند. ماده 5: تمامی نهدهای شورایی کشور مشتمل بر مجلس شورای اسلامی، مجمع تشخیص مصلحت نظام، شوراهای شهر و روستاف شوراهای عالی کشور موظفند
مشروح مذاکرات خود را اعم از صحن و کمیسیونهای تابع آنها و آرای ماخوذه از اعضا را بلافاصله در پایگاه اطلاعرسانی خود منتشر نمایند.
آییننامه محرمانگی و غیرعلنی بودن جلسات هر کدام از نهادها و شوراها پس از سه ماه از تصویب این قانون باید تعیین و پس از تصویب شورای امنیت ملی به اطلاع عموم رسانده شود
. ماده 6: وزارت ارتباطات و فناوری اطلاعات موظف است ظرف سه ماه از تاریخ لازمالاجرا شدن این قانون،
با همکاری سازمان اداری و استخدامی کشور و دستگاههای ذیربط، ضوابط ایجاد، نگهداری و
اشتراکگذاری اطلاعات شامل طراحی فرمها و قالبهای مورد قبول اسناد را برای تمامی دستگاهها و نهادهای مشمول این قانون، به گونهای تدوین کند
و پس از تصویب شورای اجرای فناوری اطلاعات با تایید شورای امنیت ملی، جهت اجرا ابلاغ نماید که اطلاعات منتشر یا به اشتراک گذاشته شده
توسط موسسات مشمول بدون وابستگی به فناوریهای خاص توسط نرمافزارهای متنوع قابل استفاده و پردازش باشند.
همچنین، ضوابط ایجاد، اداره و بهروزرسانی پایگاه های اطلاعرسانی موسسات مشمول را از جهت محتوا، سهولت و نحوه دسترسی کاربران،
قابل اعتماد بودن و قابل فهم بودن برای عموم مردم، توسط وزارت ارتباطات و فناوری اطلاعات تهیه شده، پس از تصویب شورای اجرایی فناوری اطلاعات جهت اجرا ابلاغ میگردد.
ماده 7: عدم اجرا یا اجرای ناقص تکالیف مقرر در این قانون با انتشار اطلاعات مغایر مفاد
این قانون تخلف محسوب و متخلف یا متخلفان حسب مورد بر اساس رای هیئتهای رسیدگی به تخلفات اداری و با توجه به اهمیت موضوع به یکی از مجازاتهای اداری مقرر
در بندهای (ج) تا (ی) ماده (9) قانون رسیدگی به تخلفات اداری - مصوب 1372 - یا مجازات متناسب مطابق قوانین مربوط محکوم میشوند. انتهای پیام/
"""
inputs = tokenizer(text_to_summarize, truncation=True, max_length=256, padding='max_length', return_tensors="pt")
# Now you can generate the summary
summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=64, early_stopping=True)
# Decode the summary
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
# output: نماینده نیشابور در مجلس از ارائه طرح ۲ فوریتی شفافیت قوای سه گانه دستگاه های اجرایی و نهادهای عمومی غیردولتی به هیئت رئیسه مجلس خبر داد.
📄 ライセンス
このプロジェクトは MIT ライセンスの下でライセンスされています。
Bart Large Cnn
MIT
英語コーパスで事前学習されたBARTモデルで、CNNデイリーメールデータセットに特化してファインチューニングされ、テキスト要約タスクに適しています。
テキスト生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
ParrotはT5ベースの言い換えフレームワークで、自然言語理解(NLU)モデルのトレーニング加速のために設計され、高品質な言い換えによるデータ拡張を実現します。
テキスト生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBARTはBARTモデルの蒸留バージョンで、テキスト要約タスクに特化して最適化されており、高い性能を維持しながら推論速度を大幅に向上させています。
テキスト生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
T5アーキテクチャに基づくモデルで、要約テキストから原子声明を抽出するために特別に設計されており、要約の事実性評価プロセスの重要なコンポーネントです。
テキスト生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEvalは自然言語生成タスクの自動評価のための統一された多次元評価器で、複数の解釈可能な次元での評価をサポートします。
テキスト生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
PEGASUSアーキテクチャを微調整したテキスト再述モデルで、意味は同じだが表現が異なる文章を生成できます。
テキスト生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
これはT5アーキテクチャに基づく韓国語テキスト要約モデルで、韓国語テキスト要約タスク用に設計され、paust/pko-t5-baseモデルを微調整して複数の韓国語データセットで訓練されました。
テキスト生成
Transformers 韓国語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUSは、Transformerに基づく事前学習モデルで、抽象的なテキスト要約タスクに特化しています。
テキスト生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
BART-largeアーキテクチャに基づく対話要約モデルで、SAMSumコーパス用に微調整され、対話要約の生成に適しています。
テキスト生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
KoBARTアーキテクチャに基づく韓国語テキスト要約モデルで、韓国語ニュース記事の簡潔な要約を生成できます。
テキスト生成
Transformers 韓国語

K
gogamza
119.18k
12
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98