🚀 roberta-base_topic_classification_nyt_news
このモデルは、NYT Newsデータセット(2000年から現在までに公開された記事の256,000件のニュースタイトルを含む、https://www.kaggle.com/datasets/aryansingh0909/nyt-articles-21m-2000-present)でroberta-baseを微調整したバージョンです。
51,200件のテストセットで以下の結果を達成しています:
- 正解率: 0.91
- F1値: 0.91
- 適合率: 0.91
- 再現率: 0.91
🚀 クイックスタート
このモデルは、NYT Newsデータセットを用いてroberta-base
を微調整したもので、ニュースのトピック分類に使用できます。以下のコードで簡単に使用できます。
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
model = AutoModelForSequenceClassification.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
pipe = pipeline("text-classification", model=model, tokenizer=tokenizer)
text = "Kederis proclaims innocence Olympic champion Kostas Kederis today left hospital ahead of his date with IOC inquisitors claiming his innocence and vowing."
pipe(text)
[{'label': 'Sports', 'score': 0.9989326596260071}]
✨ 主な機能
- ニュース記事のトピック分類が可能です。
- 高い正解率、F1値、適合率、再現率を達成しています。
📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。
pip install transformers datasets torch tokenizers
📚 ドキュメント
学習データ
学習データは以下のように分類されています:
クラス |
説明 |
0 |
スポーツ |
1 |
芸術、文化、エンターテイメント |
2 |
ビジネスと金融 |
3 |
健康とウェルネス |
4 |
ライフスタイルとファッション |
5 |
科学と技術 |
6 |
政治 |
7 |
犯罪 |
学習手順
学習ハイパーパラメータ
学習中に以下のハイパーパラメータが使用されました:
- 学習率: 5e-05
- 学習バッチサイズ: 8
- 評価バッチサイズ: 8
- シード: 42
- オプティマイザ: Adam(ベータ=(0.9,0.999)、イプシロン=1e-08)
- 学習率スケジューラのタイプ: 線形
- 学習率スケジューラのウォームアップステップ: 500
- エポック数: 5
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
正解率 |
F1値 |
適合率 |
再現率 |
0.3192 |
1.0 |
20480 |
0.4078 |
0.8865 |
0.8859 |
0.8892 |
0.8865 |
0.2863 |
2.0 |
40960 |
0.4271 |
0.8972 |
0.8970 |
0.8982 |
0.8972 |
0.1979 |
3.0 |
61440 |
0.3797 |
0.9094 |
0.9092 |
0.9098 |
0.9094 |
0.1239 |
4.0 |
81920 |
0.3981 |
0.9117 |
0.9113 |
0.9114 |
0.9117 |
0.1472 |
5.0 |
102400 |
0.4033 |
0.9137 |
0.9135 |
0.9134 |
0.9137 |
モデルの性能
|
適合率 |
再現率 |
F1値 |
サポート |
スポーツ |
0.97 |
0.98 |
0.97 |
6400 |
芸術、文化、エンターテイメント |
0.94 |
0.95 |
0.94 |
6400 |
ビジネスと金融 |
0.85 |
0.84 |
0.84 |
6400 |
健康とウェルネス |
0.90 |
0.93 |
0.91 |
6400 |
ライフスタイルとファッション |
0.95 |
0.95 |
0.95 |
6400 |
科学と技術 |
0.89 |
0.83 |
0.86 |
6400 |
政治 |
0.93 |
0.88 |
0.90 |
6400 |
犯罪 |
0.85 |
0.93 |
0.89 |
6400 |
正解率 |
|
|
0.91 |
51200 |
マクロ平均 |
0.91 |
0.91 |
0.91 |
51200 |
加重平均 |
0.91 |
0.91 |
0.91 |
51200 |
HuggingFaceでの使用方法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
model = AutoModelForSequenceClassification.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
pipe = pipeline("text-classification", model=model, tokenizer=tokenizer)
text = "Kederis proclaims innocence Olympic champion Kostas Kederis today left hospital ahead of his date with IOC inquisitors claiming his innocence and vowing."
pipe(text)
[{'label': 'Sports', 'score': 0.9989326596260071}]
フレームワークのバージョン
- Transformers 4.32.1
- Pytorch 2.1.0+cu121
- Datasets 2.12.0
- Tokenizers 0.13.2
📄 ライセンス
このモデルはMITライセンスの下で提供されています。