🚀 斯堪的纳维亚精细网络清理器
本模型是一个用于识别丹麦语和瑞典语网络文本中问题内容(语言错误、乱码文本)的演示分类器。它是作为一篇博客文章的一部分创建的,该文章探讨了如何使用社区注释来过滤网络数据。该模型是通过在 data-is-better-together/fineweb-c 数据集上对 FacebookAI/xlm-roberta-base 进行微调而创建的。
它在评估集上取得了以下结果:
- 精确率:0.9524(95.2%)
- 召回率:0.7018(70.2%)
- F1值:0.8081
- AUC-ROC:0.9648
🚀 快速开始
本模型可作为网络文本的初步过滤器,帮助提高注释效率。它仅在丹麦语和瑞典语内容上进行了测试。高精度(95.2%)意味着误报很少,而召回率(70.2%)表明它能捕捉到大多数问题内容。
✨ 主要特性
- 特定语言适用:专门针对丹麦语和瑞典语网络文本进行问题内容识别。
- 高精度:精确率达到 95.2%,误报情况较少。
- 良好召回率:召回率为 70.2%,能有效捕捉问题内容。
📚 详细文档
预期用途和限制
该模型旨在用作网络文本的初步过滤器,以帮助提高注释效率。它仅在丹麦语和瑞典语内容上进行了测试。高精度(95.2%)意味着误报很少,而召回率(70.2%)表明它能捕捉到大多数问题内容。
训练和评估数据
更多信息待补充。
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:2e - 05
- 训练批次大小:16
- 评估批次大小:16
- 随机种子:42
- 优化器:使用 OptimizerNames.ADAMW_TORCH,β值为(0.9, 0.999),ε值为 1e - 08,无额外优化器参数
- 学习率调度器类型:线性
- 训练轮数:10
- 混合精度训练:原生 AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
精确率 |
召回率 |
F1值 |
AUC-ROC |
平衡准确率 |
平均精确率 |
0.3165 |
1.0 |
100 |
0.2333 |
0.95 |
0.6667 |
0.7835 |
0.8099 |
0.8304 |
0.7721 |
0.1929 |
2.0 |
200 |
0.1359 |
0.9130 |
0.7368 |
0.8155 |
0.9778 |
0.8626 |
0.9105 |
0.1775 |
3.0 |
300 |
0.2245 |
0.9268 |
0.6667 |
0.7755 |
0.9481 |
0.8290 |
0.8721 |
0.1553 |
4.0 |
400 |
0.1816 |
0.9524 |
0.7018 |
0.8081 |
0.9648 |
0.8480 |
0.8906 |
框架版本
- Transformers 4.48.0
- Pytorch 2.5.1+cu124
- Datasets 3.2.0
- Tokenizers 0.21.0
📄 许可证
本项目采用 MIT 许可证。
📦 模型信息
属性 |
详情 |
模型类型 |
scandi - fine - web - cleaner |
基础模型 |
FacebookAI/xlm - roberta - base |
训练数据集 |
data - is - better - together/fineweb - c |
语言支持 |
瑞典语、丹麦语 |
评估指标 |
精确率、召回率、F1值、AUC - ROC |