🚀 新闻类别分类模型
本模型用于根据 IPTC 新闻代码对新闻内容进行分类,基于预训练模型微调而来,能够处理挪威语、瑞典语和英语的新闻文本,在新闻分类任务中具有一定的准确性和实用性。
🚀 快速开始
此模型是 KB/bert-base-swedish-cased 在私有数据集上的微调版本。它基于有限的英语、瑞典语和挪威语标题构建,可将新闻内容分为 IPTC 新闻代码指定的 16 个类别。该模型在严重倾斜的数据集上进行了微调,并进行了少量增强以使其更加稳定。
✨ 主要特性
- 多语言支持:能够对挪威语、瑞典语和英语的新闻内容进行分类。
- 特定场景适用:针对 IPTC 新闻代码指定的 16 个类别进行分类。
- 性能表现良好:在评估集上取得了一定的准确率、F1 值等指标。
📚 详细文档
模型描述
该模型旨在将挪威语、瑞典语和英语的新闻内容分类到指定的 16 个类别中,但目前仅作为测试模型用于演示目的。它在多个类别中需要更多数据才能发挥 100% 的价值,但在该用例上的表现将优于 Claude Haiku 和 GPT - 3.5。
预期用途与限制
可用于对新闻文本进行分类。仅当标签的置信度至少为 60% 时才设置类别,否则模型不确定。
测试示例
输入 |
输出 |
Mann siktet for drapsforsøk på Slovakias statsministeren |
politics |
Tre døde i kioskbrann i Tyskland |
disaster, accident, and emergency incident |
Kultfilm får Netflix - oppfølger. Kultfilmen «Happy Gilmore» fra 1996 får en oppfølger på Netflix. Det røper strømmetjenesten selv på X, tidligere Twitter. –Happy Gilmore er tilbake! |
arts, culture, entertainment and media |
性能表现
该模型在评估集上取得了以下结果:
- 损失值(Loss):0.8030
- 准确率(Accuracy):0.7431
- F1 值:0.7474
- 精确率(Precision):0.7695
- 召回率(Recall):0.7431
各标签的准确率如下:
标签 |
准确率 |
Arts, culture, entertainment and media |
0.6842 |
Conflict, war and peace |
0.7351 |
Crime, law and justice |
0.8918 |
Disaster, accident, and emergency incident |
0.8699 |
Economy, business, and finance |
0.6893 |
Environment |
0.4483 |
Health |
0.7222 |
Human interest |
0.3182 |
Labour |
0.5 |
Lifestyle and leisure |
0.5556 |
Politics |
0.7909 |
Science and technology |
0.4583 |
Society |
0.3538 |
Sport |
0.9615 |
Weather |
1.0 |
Religion |
0.0 |
训练和评估数据
使用训练器进行训练,设置学习率为 2e - 05,批量大小为 16,训练 3 个 epoch。
训练过程
训练超参数
训练过程中使用了以下超参数:
属性 |
详情 |
学习率(learning_rate) |
2e - 05 |
训练批量大小(train_batch_size) |
16 |
评估批量大小(eval_batch_size) |
16 |
随机种子(seed) |
42 |
梯度累积步数(gradient_accumulation_steps) |
2 |
总训练批量大小(total_train_batch_size) |
32 |
优化器(optimizer) |
Adam(betas=(0.9, 0.999),epsilon = 1e - 08) |
学习率调度器类型(lr_scheduler_type) |
linear |
学习率调度器热身步数(lr_scheduler_warmup_steps) |
500 |
训练轮数(num_epochs) |
3 |
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
准确率 |
F1 值 |
精确率 |
召回率 |
Arts, culture, entertainment and media 准确率 |
Conflict, war and peace 准确率 |
Crime, law and justice 准确率 |
Disaster, accident, and emergency incident 准确率 |
Economy, business, and finance 准确率 |
Environment 准确率 |
Health 准确率 |
Human interest 准确率 |
Labour 准确率 |
Lifestyle and leisure 准确率 |
Politics 准确率 |
Religion 准确率 |
Science and technology 准确率 |
Society 准确率 |
Sport 准确率 |
Weather 准确率 |
1.9761 |
0.2907 |
200 |
1.4046 |
0.6462 |
0.6164 |
0.6057 |
0.6462 |
0.3158 |
0.8315 |
0.7629 |
0.7055 |
0.5437 |
0.0 |
0.5 |
0.0 |
0.0 |
0.3333 |
0.4843 |
0.0 |
0.0833 |
0.0 |
0.9615 |
0.0 |
1.2153 |
0.5814 |
400 |
1.0225 |
0.6894 |
0.6868 |
0.7652 |
0.6894 |
0.7895 |
0.6554 |
0.8196 |
0.8562 |
0.6408 |
0.2414 |
0.8333 |
0.1364 |
0.0 |
0.6667 |
0.8467 |
0.0 |
0.375 |
0.0154 |
0.9615 |
1.0 |
0.954 |
0.8721 |
600 |
0.8858 |
0.7231 |
0.7138 |
0.7309 |
0.7231 |
0.7368 |
0.7795 |
0.8918 |
0.8699 |
0.6214 |
0.3448 |
0.8889 |
0.1818 |
1.0 |
0.5556 |
0.6899 |
0.0 |
0.25 |
0.0462 |
0.9615 |
1.0 |
0.6662 |
1.1628 |
800 |
0.9381 |
0.6881 |
0.7009 |
0.7618 |
0.6881 |
0.7895 |
0.6126 |
0.8454 |
0.8630 |
0.6505 |
0.4483 |
0.7222 |
0.2273 |
1.0 |
0.4444 |
0.8293 |
0.0 |
0.5417 |
0.2308 |
0.9615 |
1.0 |
0.5554 |
1.4535 |
1000 |
0.8791 |
0.7025 |
0.7124 |
0.7628 |
0.7025 |
0.7368 |
0.6478 |
0.9021 |
0.8562 |
0.6602 |
0.3103 |
0.7778 |
0.3636 |
0.5 |
0.5556 |
0.8084 |
0.0 |
0.5 |
0.1846 |
0.9615 |
1.0 |
0.4396 |
1.7442 |
1200 |
0.8275 |
0.7175 |
0.7280 |
0.7686 |
0.7175 |
0.7895 |
0.6631 |
0.8196 |
0.8836 |
0.6893 |
0.3793 |
0.8333 |
0.4091 |
0.5 |
0.5556 |
0.8362 |
0.0 |
0.4167 |
0.3692 |
0.9615 |
1.0 |
0.383 |
2.0349 |
1400 |
0.7929 |
0.745 |
0.7501 |
0.7653 |
0.745 |
0.6842 |
0.7841 |
0.8866 |
0.8767 |
0.7087 |
0.4483 |
0.7778 |
0.4091 |
0.5 |
0.5556 |
0.6899 |
0.0 |
0.4167 |
0.2923 |
0.9615 |
0.0 |
0.3418 |
2.3256 |
1600 |
0.8042 |
0.7438 |
0.7440 |
0.7686 |
0.7438 |
0.7895 |
0.7351 |
0.9072 |
0.8493 |
0.7864 |
0.4483 |
0.7778 |
0.3182 |
0.5 |
0.5556 |
0.7909 |
0.0 |
0.4167 |
0.1846 |
0.9615 |
0.0 |
0.248 |
2.6163 |
1800 |
0.8387 |
0.7275 |
0.7325 |
0.7610 |
0.7275 |
0.6842 |
0.6891 |
0.8814 |
0.8699 |
0.7573 |
0.4138 |
0.8333 |
0.4091 |
0.5 |
0.5556 |
0.8014 |
0.0 |
0.4167 |
0.2769 |
0.9615 |
0.0 |
0.2525 |
2.9070 |
2000 |
0.8137 |
0.735 |
0.7413 |
0.7697 |
0.735 |
0.6842 |
0.7106 |
0.8763 |
0.8699 |
0.6796 |
0.4483 |
0.7222 |
0.3636 |
0.5 |
0.5556 |
0.8153 |
0.0 |
0.4583 |
0.3385 |
0.9615 |
0.0 |
框架版本
- Transformers 4.40.2
- Pytorch 2.2.1 + cu121
- Datasets 2.19.1
- Tokenizers 0.19.1