🚀 新聞類別分類模型
本模型用於根據 IPTC 新聞代碼對新聞內容進行分類,基於預訓練模型微調而來,能夠處理挪威語、瑞典語和英語的新聞文本,在新聞分類任務中具有一定的準確性和實用性。
🚀 快速開始
此模型是 KB/bert-base-swedish-cased 在私有數據集上的微調版本。它基於有限的英語、瑞典語和挪威語標題構建,可將新聞內容分為 IPTC 新聞代碼指定的 16 個類別。該模型在嚴重傾斜的數據集上進行了微調,並進行了少量增強以使其更加穩定。
✨ 主要特性
- 多語言支持:能夠對挪威語、瑞典語和英語的新聞內容進行分類。
- 特定場景適用:針對 IPTC 新聞代碼指定的 16 個類別進行分類。
- 性能表現良好:在評估集上取得了一定的準確率、F1 值等指標。
📚 詳細文檔
模型描述
該模型旨在將挪威語、瑞典語和英語的新聞內容分類到指定的 16 個類別中,但目前僅作為測試模型用於演示目的。它在多個類別中需要更多數據才能發揮 100% 的價值,但在該用例上的表現將優於 Claude Haiku 和 GPT - 3.5。
預期用途與限制
可用於對新聞文本進行分類。僅當標籤的置信度至少為 60% 時才設置類別,否則模型不確定。
測試示例
輸入 |
輸出 |
Mann siktet for drapsforsøk på Slovakias statsministeren |
politics |
Tre døde i kioskbrann i Tyskland |
disaster, accident, and emergency incident |
Kultfilm får Netflix - oppfølger. Kultfilmen «Happy Gilmore» fra 1996 får en oppfølger på Netflix. Det røper strømmetjenesten selv på X, tidligere Twitter. –Happy Gilmore er tilbake! |
arts, culture, entertainment and media |
性能表現
該模型在評估集上取得了以下結果:
- 損失值(Loss):0.8030
- 準確率(Accuracy):0.7431
- F1 值:0.7474
- 精確率(Precision):0.7695
- 召回率(Recall):0.7431
各標籤的準確率如下:
標籤 |
準確率 |
Arts, culture, entertainment and media |
0.6842 |
Conflict, war and peace |
0.7351 |
Crime, law and justice |
0.8918 |
Disaster, accident, and emergency incident |
0.8699 |
Economy, business, and finance |
0.6893 |
Environment |
0.4483 |
Health |
0.7222 |
Human interest |
0.3182 |
Labour |
0.5 |
Lifestyle and leisure |
0.5556 |
Politics |
0.7909 |
Science and technology |
0.4583 |
Society |
0.3538 |
Sport |
0.9615 |
Weather |
1.0 |
Religion |
0.0 |
訓練和評估數據
使用訓練器進行訓練,設置學習率為 2e - 05,批量大小為 16,訓練 3 個 epoch。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
屬性 |
詳情 |
學習率(learning_rate) |
2e - 05 |
訓練批量大小(train_batch_size) |
16 |
評估批量大小(eval_batch_size) |
16 |
隨機種子(seed) |
42 |
梯度累積步數(gradient_accumulation_steps) |
2 |
總訓練批量大小(total_train_batch_size) |
32 |
優化器(optimizer) |
Adam(betas=(0.9, 0.999),epsilon = 1e - 08) |
學習率調度器類型(lr_scheduler_type) |
linear |
學習率調度器熱身步數(lr_scheduler_warmup_steps) |
500 |
訓練輪數(num_epochs) |
3 |
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
準確率 |
F1 值 |
精確率 |
召回率 |
Arts, culture, entertainment and media 準確率 |
Conflict, war and peace 準確率 |
Crime, law and justice 準確率 |
Disaster, accident, and emergency incident 準確率 |
Economy, business, and finance 準確率 |
Environment 準確率 |
Health 準確率 |
Human interest 準確率 |
Labour 準確率 |
Lifestyle and leisure 準確率 |
Politics 準確率 |
Religion 準確率 |
Science and technology 準確率 |
Society 準確率 |
Sport 準確率 |
Weather 準確率 |
1.9761 |
0.2907 |
200 |
1.4046 |
0.6462 |
0.6164 |
0.6057 |
0.6462 |
0.3158 |
0.8315 |
0.7629 |
0.7055 |
0.5437 |
0.0 |
0.5 |
0.0 |
0.0 |
0.3333 |
0.4843 |
0.0 |
0.0833 |
0.0 |
0.9615 |
0.0 |
1.2153 |
0.5814 |
400 |
1.0225 |
0.6894 |
0.6868 |
0.7652 |
0.6894 |
0.7895 |
0.6554 |
0.8196 |
0.8562 |
0.6408 |
0.2414 |
0.8333 |
0.1364 |
0.0 |
0.6667 |
0.8467 |
0.0 |
0.375 |
0.0154 |
0.9615 |
1.0 |
0.954 |
0.8721 |
600 |
0.8858 |
0.7231 |
0.7138 |
0.7309 |
0.7231 |
0.7368 |
0.7795 |
0.8918 |
0.8699 |
0.6214 |
0.3448 |
0.8889 |
0.1818 |
1.0 |
0.5556 |
0.6899 |
0.0 |
0.25 |
0.0462 |
0.9615 |
1.0 |
0.6662 |
1.1628 |
800 |
0.9381 |
0.6881 |
0.7009 |
0.7618 |
0.6881 |
0.7895 |
0.6126 |
0.8454 |
0.8630 |
0.6505 |
0.4483 |
0.7222 |
0.2273 |
1.0 |
0.4444 |
0.8293 |
0.0 |
0.5417 |
0.2308 |
0.9615 |
1.0 |
0.5554 |
1.4535 |
1000 |
0.8791 |
0.7025 |
0.7124 |
0.7628 |
0.7025 |
0.7368 |
0.6478 |
0.9021 |
0.8562 |
0.6602 |
0.3103 |
0.7778 |
0.3636 |
0.5 |
0.5556 |
0.8084 |
0.0 |
0.5 |
0.1846 |
0.9615 |
1.0 |
0.4396 |
1.7442 |
1200 |
0.8275 |
0.7175 |
0.7280 |
0.7686 |
0.7175 |
0.7895 |
0.6631 |
0.8196 |
0.8836 |
0.6893 |
0.3793 |
0.8333 |
0.4091 |
0.5 |
0.5556 |
0.8362 |
0.0 |
0.4167 |
0.3692 |
0.9615 |
1.0 |
0.383 |
2.0349 |
1400 |
0.7929 |
0.745 |
0.7501 |
0.7653 |
0.745 |
0.6842 |
0.7841 |
0.8866 |
0.8767 |
0.7087 |
0.4483 |
0.7778 |
0.4091 |
0.5 |
0.5556 |
0.6899 |
0.0 |
0.4167 |
0.2923 |
0.9615 |
0.0 |
0.3418 |
2.3256 |
1600 |
0.8042 |
0.7438 |
0.7440 |
0.7686 |
0.7438 |
0.7895 |
0.7351 |
0.9072 |
0.8493 |
0.7864 |
0.4483 |
0.7778 |
0.3182 |
0.5 |
0.5556 |
0.7909 |
0.0 |
0.4167 |
0.1846 |
0.9615 |
0.0 |
0.248 |
2.6163 |
1800 |
0.8387 |
0.7275 |
0.7325 |
0.7610 |
0.7275 |
0.6842 |
0.6891 |
0.8814 |
0.8699 |
0.7573 |
0.4138 |
0.8333 |
0.4091 |
0.5 |
0.5556 |
0.8014 |
0.0 |
0.4167 |
0.2769 |
0.9615 |
0.0 |
0.2525 |
2.9070 |
2000 |
0.8137 |
0.735 |
0.7413 |
0.7697 |
0.735 |
0.6842 |
0.7106 |
0.8763 |
0.8699 |
0.6796 |
0.4483 |
0.7222 |
0.3636 |
0.5 |
0.5556 |
0.8153 |
0.0 |
0.4583 |
0.3385 |
0.9615 |
0.0 |
框架版本
- Transformers 4.40.2
- Pytorch 2.2.1 + cu121
- Datasets 2.19.1
- Tokenizers 0.19.1