pegasus_indonesian_base-finetuneオープンソースモデル - 無料でインドネシア語のニューステキストの効率的な要約を実現

ホーム

Pegasus Indonesian Base Finetune

thonyyyによって開発

このモデルはPEGASUSアーキテクチャに基づくインドネシア語テキスト要約モデルで、Indosum、Liputan6、XLSumデータセットでファインチューニングされており、ニュース記事の要約タスクに適しています。

テキスト生成

Transformers

その他オープンソースライセンス:Apache-2.0 #インドネシア語要約 #ニューステキスト最適化 #マルチデータセットファインチューニング

ダウンロード数 172

リリース時間 : 6/27/2023

モデル概要

これはインドネシア語テキスト向けの自動要約生成モデルで、特にニュース記事の処理能力を最適化しており、長文から重要な情報を抽出して簡潔な要約を生成できます。

モデル特徴

マルチデータセットファインチューニング

Indosum、Liputan6、XLSumの3つのインドネシア語データセットでファインチューニングされており、モデルの汎化能力を強化しています

テキスト前処理統合

リンクや特殊文字などのノイズを自動処理するテキストクリーニング機能を内蔵

TPU最適化トレーニング

Google TPUリサーチクラウドを使用してトレーニングを行い、効率的な学習プロセスを確保

モデル能力

インドネシア語テキスト要約

ニュース内容の抽出

長文圧縮

使用事例

ニュースメディア

ニュース要約生成

ニュース記事の簡潔な要約を自動生成

IndosumデータセットでROUGE-1スコア52.43を達成

コンテンツ分析

レポートのキー情報抽出

長文レポートから核心内容を抽出

🚀 pegasus_indonesian_base-finetune

このモデルは、pegasus_indonesian_base-pretrain を Indosum、Liputan6、および XLSum でファインチューニングしたバージョンです。モデルをすぐに試したい場合は、このノートブックを参照してください。

Github : PEGASUS TPU Trainer

🚀 クイックスタート

このモデルをすぐに試したい場合は、このノートブックを参照してください。

✨ 主な機能

このモデルは大文字小文字を区別せず、"," と "." 以外の特殊文字を読み取ることができません。
ニュース記事以外のテキストでは性能が低下する可能性があります。

📊 性能

データセット	rouge-1	rouge-2	rouge-L	BERTScore
Indosum	52.43	41.23	48.18	80.68
Liputan6	38.27	20.22	31.26	76.31
XLSum	26.97	9.99	21.70	73.62

📦 インストール

このモデルを使用するには、以下のコードを実行してモデルとトークナイザーをロードします。

# Load model and tokenizer
from transformers import TFPegasusForConditionalGeneration, PegasusTokenizerFast
model_name = "thonyyy/pegasus_indonesian_base-finetune"
model = TFPegasusForConditionalGeneration.from_pretrained(model_name)
tokenizer = PegasusTokenizerFast.from_pretrained(model_name)

💻 使用例

基本的な使用法

# Load model and tokenizer
from transformers import TFPegasusForConditionalGeneration, PegasusTokenizerFast
model_name = "thonyyy/pegasus_indonesian_base-finetune"
model = TFPegasusForConditionalGeneration.from_pretrained(model_name)
tokenizer = PegasusTokenizerFast.from_pretrained(model_name)

# Main function to clean text, removes link, bullet point, non ASCII char, parantheses,
# punctuation except "," and ".", numbers with dot (enumerating), extra whitespaces, too short sentences.
import re
import unicodedata
def text_cleaning(input_string):
    lowercase = input_string.lower()
    remove_link = re.sub(r'(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w\.-]*)', '', lowercase).replace("&amp;","&")
    remove_bullet = "\n".join([T for T in remove_link.split('\n') if '•' not in T and "baca juga:" not in T])
    remove_accented = unicodedata.normalize('NFKD', remove_bullet).encode('ascii', 'ignore').decode('utf-8', 'ignore')
    remove_parentheses = re.sub("([\(\|]).*?([\)\|])", "\g<1>\g<2>", remove_accented)
    remove_punc = re.sub(r"[^\w\d.\s]+",' ', remove_parentheses)
    remove_num_dot = re.sub(r"(?<=\d)\.|\.(?=\d)|(?<=#)\.","", remove_punc)
    remove_extra_whitespace =  re.sub(r'^\s*|\s\s*', ' ', remove_num_dot).strip()
    return ".".join([s for s in remove_extra_whitespace.strip().split('.') if len(s.strip())>10]).replace("_","")

# Article to summarize
sample_article="""
Dana Moneter Internasional (IMF) menilai Indonesia telah menunjukkan pemulihan ekonomi yang baik pasca pandemi melalui kinerja makroekonomi yang kuat, didukung penerapan kebijakan moneter dan fiskal secara berhati-hati. Kebijakan forward looking dan sinergi telah berhasil membawa Indonesia menghadapi tantangan global pada tahun 2022 dengan pertumbuhan yang sehat, tekanan inflasi yang menurun, dan sistem keuangan yang stabil.  Bank Indonesia menyambut baik hasil asesmen IMF atas perekonomian Indonesia dalam laporan Article IV Consultation tahun 2023 yang dirilis hari ini (26/6).
Dewan Direktur IMF menyampaikan apresiasi dan catatan positif terhadap berbagai kebijakan yang ditempuh otoritas Indonesia selama tahun 2022. Pertama, keberhasilan otoritas untuk kembali kepada batas maksimal defisit fiskal 3%, lebih cepat dari yang diperkirakan dan komitmen otoritas untuk menerapkan disiplin fiskal. Kedua, penerapan kebijakan moneter yang memadai untuk menjaga stabilitas harga. Ketiga, ketahanan sektor keuangan yang tetap terjaga. Keempat, penerapan UU Cipta Kerja serta UU Pengembangan dan Penguatan Sektor Keuangan, dengan memastikan implementasi yang tepat dan keberlanjutan momentum reformasi untuk mendorong kemudahan berinvestasi, meningkatkan pendalaman pasar keuangan, dan memitigasi dampak scarring dari pandemi. Kelima, strategi diversifikasi Indonesia yang fokus pada upaya hilirisasi dalam rangka meningkatkan nilai tambah ekspor. Keenam, komitmen otoritas untuk mengurangi emisi  gas rumah kaca dan deforestasi.
"""

# Generate summary
x = tokenizer(text_cleaning(sample_article), return_tensors = 'tf')
y = model.generate(**x)
suummary = tokenizer.batch_decode(y, skip_special_tokens=True)
print(summary)

📚 ドキュメント

トレーニングと評価データ

ファインチューニングに使用したデータセットは以下の通りです。

トレーニング手順

再現するには、GitHubページを参照してください。

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

optimizer: {'name': 'Adafactor', 'weight_decay': None, 'clipnorm': None, 'global_clipnorm': None, 'clipvalue': None, 'use_ema': False, 'ema_momentum': 0.99, 'ema_overwrite_frequency': None, 'jit_compile': False, 'is_legacy_optimizer': False, 'learning_rate': 0.00013661868, 'beta_2_decay': -0.8, 'epsilon_1': 1e-30, 'epsilon_2': 0.001, 'clip_threshold': 1.0, 'relative_step': True}
training_precision: float32