🚀 roberta-base_topic_classification_nyt_news
本模型是 roberta-base 在紐約時報新聞數據集上的微調版本。該數據集包含從2000年至今發表的256,000條新聞標題(https://www.kaggle.com/datasets/aryansingh0909/nyt-articles-21m-2000-present)。它在51200個案例的測試集上取得了以下成績:
- 準確率:0.91
- F1值:0.91
- 精確率:0.91
- 召回率:0.91
🚀 快速開始
本模型可用於新聞主題分類任務,通過微調roberta-base在紐約時報新聞數據集上訓練得到,具有較高的準確率、F1值、精確率和召回率。
✨ 主要特性
- 基於roberta-base模型進行微調,在新聞主題分類任務上表現出色。
- 提供了詳細的訓練數據分類和訓練過程信息。
- 可以方便地使用HuggingFace的pipeline進行調用。
📦 安裝指南
使用該模型前,需要安裝相關依賴庫,可使用以下命令安裝:
pip install transformers datasets torch tokenizers
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
model = AutoModelForSequenceClassification.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
pipe = pipeline("text-classification", model=model, tokenizer=tokenizer)
text = "Kederis proclaims innocence Olympic champion Kostas Kederis today left hospital ahead of his date with IOC inquisitors claiming his innocence and vowing."
pipe(text)
[{'label': 'Sports', 'score': 0.9989326596260071}]
📚 詳細文檔
訓練數據
訓練數據分類如下:
類別 |
描述 |
0 |
體育 |
1 |
藝術、文化和娛樂 |
2 |
商業和金融 |
3 |
健康與保健 |
4 |
生活方式和時尚 |
5 |
科學與技術 |
6 |
政治 |
7 |
犯罪 |
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:5e-05
- 訓練批次大小:8
- 評估批次大小:8
- 隨機種子:42
- 優化器:Adam,β=(0.9, 0.999),ε=1e-08
- 學習率調度器類型:線性
- 學習率調度器熱身步數:500
- 訓練輪數:5
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
準確率 |
F1值 |
精確率 |
召回率 |
0.3192 |
1.0 |
20480 |
0.4078 |
0.8865 |
0.8859 |
0.8892 |
0.8865 |
0.2863 |
2.0 |
40960 |
0.4271 |
0.8972 |
0.8970 |
0.8982 |
0.8972 |
0.1979 |
3.0 |
61440 |
0.3797 |
0.9094 |
0.9092 |
0.9098 |
0.9094 |
0.1239 |
4.0 |
81920 |
0.3981 |
0.9117 |
0.9113 |
0.9114 |
0.9117 |
0.1472 |
5.0 |
102400 |
0.4033 |
0.9137 |
0.9135 |
0.9134 |
0.9137 |
模型性能
類別 |
精確率 |
召回率 |
F1值 |
樣本數 |
體育 |
0.97 |
0.98 |
0.97 |
6400 |
藝術、文化和娛樂 |
0.94 |
0.95 |
0.94 |
6400 |
商業和金融 |
0.85 |
0.84 |
0.84 |
6400 |
健康與保健 |
0.90 |
0.93 |
0.91 |
6400 |
生活方式和時尚 |
0.95 |
0.95 |
0.95 |
6400 |
科學與技術 |
0.89 |
0.83 |
0.86 |
6400 |
政治 |
0.93 |
0.88 |
0.90 |
6400 |
犯罪 |
0.85 |
0.93 |
0.89 |
6400 |
|
|
|
|
|
準確率 |
|
|
0.91 |
51200 |
宏平均 |
0.91 |
0.91 |
0.91 |
51200 |
加權平均 |
0.91 |
0.91 |
0.91 |
51200 |
框架版本
- Transformers 4.32.1
- Pytorch 2.1.0+cu121
- Datasets 2.12.0
- Tokenizers 0.13.2
🔧 技術細節
本模型基於roberta-base進行微調,在紐約時報新聞數據集上進行訓練。訓練過程中使用了Adam優化器和線性學習率調度器,並設置了熱身步數。通過多輪訓練,模型在測試集上取得了較好的性能。
📄 許可證
本項目採用MIT許可證。