🚀 mT5ベースのトルコ語ニュース要約モデル
このモデルは、トルコ語のニューステキストを要約するために特化して調整された、mT5ベースのモデルです。Google/mT5-baseのアーキテクチャに基づいて構築され、トルコ語の経済と最新のニューステキストからなるデータセットを使用して学習されています。このモデルは、ニューステキストの要約を生成することで、ユーザーにニュースの最も重要なポイントを提供することを目的としています。
🚀 クイックスタート
このモデルの主な使用目的は、長いトルコ語のニューステキストを短くて理解しやすい要約に変換することです。潜在的な使用分野は以下の通りです。
✨ 主な機能
- トルコ語のニューステキストを効果的に要約します。
- ニュースの最も重要なポイントを提供します。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import MT5Tokenizer, MT5ForConditionalGeneration
model_name = 'nebiberke/news-sum-tr'
tokenizer = MT5Tokenizer.from_pretrained(model_name)
model = MT5ForConditionalGeneration.from_pretrained(model_name)
haber_metni = "Buraya Türkçe haber metni gelecek."
input_ids = tokenizer.encode(haber_metni, return_tensors="pt", max_length=512, truncation=True)
summary_ids = model.generate(input_ids, max_length=150, min_length=30, length_penalty=2.0, num_beams=7, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("要約:", summary)
📚 ドキュメント
モデルの一般的な情報
このモデルは、mT5ベースで、トルコ語のニューステキストを要約するために特に調整されています。Google/mT5-baseのアーキテクチャに基づいて構築され、トルコ語の経済と最新のニューステキストからなるデータセットを使用して学習されています。
データセット
このモデルは、batubayk/TR-Newsとdenizzhansahin/100K-TR-Newsという2つのデータセットを結合したデータセットで学習されています。データセットにはトルコ語の経済と最新のニュースコンテンツが含まれており、各ニューステキストは要約とペアになっています。学習に使用されるデータは、ニューステキストとその要約から構成されています。
- 学習とテストの分割: データセットは80%が学習用、20%がテスト用に分割されています。
- 最大入力長: 512トークン
- 最大出力長 (要約): 150トークン
学習の詳細
- モデルアーキテクチャ: MT5-base
- 学習目標: Seq2Seq要約
- バッチサイズ: 4
- エポック数: 6
- 重み減衰 (Weight Decay): 0.01
- 学習率: 5e-5
- 評価戦略: 各エポックの終了時に評価を行いました。
- ロギング: 各エポックの終了時にロギングを行いました。
- デバイス: CUDA対応GPU
学習と評価の損失
学習中に得られた損失値は以下の通りです。
- 最初のエポック終了時の学習損失: 0.6440、検証損失: 0.5474
- 最後のエポック終了時の学習損失: 0.4879、検証損失: 0.4721
評価結果
モデルのパフォーマンスは、ROUGEとBERTScoreのメトリクスを使用して評価されています。
ROUGEスコア
- ROUGE-1: Precision: 0.4231, Recall: 0.5000, F1-score: 0.4583
- ROUGE-2: Precision: 0.2400, Recall: 0.2857, F1-score: 0.2609
- ROUGE-L: Precision: 0.4231, Recall: 0.5000, F1-score: 0.4583
BERTScore
- Precision: 0.9031
- Recall: 0.9196
- F1-score: 0.9113
🔧 技術詳細
- モデルは、学習データに含まれるバイアスを学習する可能性があり、そのため要約にもそのバイアスが反映されることがあります。
- 特に非常に長くて複雑なニューステキストでは、要約の品質が低下することが観察されることがあります。
📄 ライセンス
このモデルを使用する場合は、以下のように引用してください。
@article{2024turkishsummarization,
title={mT5 Tabanlı Türkçe Haber Özetleme Modeli},
author={Nebi Berke İçöz},
year={2024},
url={https://huggingface.co/nebiberke/news-sum-tr}
}
情報テーブル
属性 |
詳情 |
データセット |
batubayk/TR-News、denizzhansahin/100K-TR-News |
言語 |
tr |
ベースモデル |
google/mt5-base |
パイプラインタグ |
要約 |
ライブラリ名 |
transformers |
タグ |
要約、transformers |
評価指標 |
bertscore、rouge |