🚀 トルコ語ニュース要約用MT5モデル
このモデルは、トルコ語のニュース記事を要約するために最適化されたモデルです。mukayese/mt5-base-turkish-summarization をベースに、yeniguno/turkish-news-summary-onesentence データセットを用いてファインチューニングされ、短くて分かりやすい要約を生成する能力を高めています。
🚀 クイックスタート
以下のコードを使用して、モデルを使い始めることができます。
from transformers import pipeline
pipe = pipeline("summarization", model="yeniguno/turkish-abstractive-summary-mt5")
text = """Brezilya'nın kuzeydoğu kıyısındaki Recife kentinde yangın çıkan bir gökdelen alevlere teslim oldu. Paylaşılan video kaydında, binayı alt katlarından üst katlarına kadar alevlerin sardığı görüldü. İlk belirlemelere göre ölen ya da yaralanan olmadı. Timesnow'ın haberine göre, binadan molozlar düşmesi nedeniyle civardaki binaların elektriği kesildi ve binalar tahliye edildi."""
response = pipe(
text,
max_length=150,
num_beams=4,
length_penalty=3.0,
early_stopping=True
)
print(response[0]["summary_text"])
✨ 主な機能
このモデルは、トルコ語のニュースコンテンツの要約が必要なアプリケーション、例えばニュース集約プラットフォームやコンテンツキュレーションサービス、長いニュース記事の概要を提供するアプリケーションなどに適しています。
🔧 技術詳細
トレーニングデータ
このモデルは、約60,000件のトルコ語ニュース記事とそれに対応する1文の要約から構成される yeniguno/turkish-news-summary-onesentence データセットを使用してファインチューニングされました。
トレーニング手順
このモデルは、mukayese/mt5-base-turkish-summarization をベースに、yeniguno/turkish-news-summary-onesentence データセットを使用してファインチューニングされました。トレーニングは Hugging Face の transformers
ライブラリ を使用し、以下のハイパーパラメータで行われました。
パラメータ |
詳細 |
学習率 |
5e-6 |
バッチサイズ |
トレーニングと評価でデバイスごとに 8 |
重み減衰 |
0.01 |
エポック数 |
10 |
評価戦略 |
epoch (各エポックの終了時に評価) |
損失関数 |
クロスエントロピー損失 |
オプティマイザ |
AdamW |
トレーニングステップ |
49,560 |
総FLOPs |
7.78e+17 |
生成による予測 |
有効 |
ファインチューニングは 単一のGPU で行われ、DataCollatorForSeq2Seq
を使用して動的パディングが適用されました。
📚 ドキュメント
評価
モデルの性能を評価するために、テキスト要約タスクで広く使用されている ROUGEスコア を使用しました。各エポックの終了時に検証セットで以下の指標が計算されました。
エポック |
トレーニング損失 |
検証損失 |
ROUGE - 1 |
ROUGE - 2 |
ROUGE - L |
生成要約の平均長 |
1 |
1.3854 |
1.2058 |
35.10 |
22.95 |
31.92 |
8.86 |
2 |
1.2895 |
1.1541 |
36.27 |
24.05 |
33.05 |
8.87 |
3 |
1.2631 |
1.1258 |
36.58 |
24.55 |
33.41 |
8.85 |
4 |
1.2318 |
1.1072 |
36.98 |
24.95 |
33.80 |
8.84 |
5 |
1.2130 |
1.0946 |
37.17 |
25.18 |
34.01 |
8.83 |
6 |
1.1948 |
1.0861 |
37.38 |
25.41 |
34.22 |
8.83 |
7 |
1.1888 |
1.0803 |
37.56 |
25.60 |
34.39 |
8.83 |
8 |
1.1810 |
1.0764 |
37.58 |
25.63 |
34.41 |
8.84 |
9 |
1.1690 |
1.0738 |
37.68 |
25.74 |
34.52 |
8.83 |
10 |
1.1814 |
1.0732 |
37.68 |
25.73 |
34.52 |
8.84 |
- ROUGE - 1:生成された要約と参照要約の単語の重複を測定します。
- ROUGE - 2:バイグラムの重複を測定します。
- ROUGE - L:参照要約と生成された要約の最長共通部分列を測定します。
- 生成要約の平均長:生成された要約の平均長を表します。
10エポック のトレーニング後、モデルは検証データセットで ROUGE - 1: 37.68、ROUGE - 2: 25.73、ROUGE - L: 34.52 を達成し、要約能力の向上が確認されました。トレーニング終了時の 最終トレーニング損失は1.2444、最後に記録された 検証損失は1.0732 でした。このモデルは、高い 意味的な正確性と読みやすさ を維持しながら、より簡潔でコンパクトなトルコ語ニュース要約を生成するように最適化されています。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。