🚀 斯堪的納維亞精細網絡清理器
本模型是一個用於識別丹麥語和瑞典語網絡文本中問題內容(語言錯誤、亂碼文本)的演示分類器。它是作為一篇博客文章的一部分創建的,該文章探討了如何使用社區註釋來過濾網絡數據。該模型是通過在 data-is-better-together/fineweb-c 數據集上對 FacebookAI/xlm-roberta-base 進行微調而創建的。
它在評估集上取得了以下結果:
- 精確率:0.9524(95.2%)
- 召回率:0.7018(70.2%)
- F1值:0.8081
- AUC-ROC:0.9648
🚀 快速開始
本模型可作為網絡文本的初步過濾器,幫助提高註釋效率。它僅在丹麥語和瑞典語內容上進行了測試。高精度(95.2%)意味著誤報很少,而召回率(70.2%)表明它能捕捉到大多數問題內容。
✨ 主要特性
- 特定語言適用:專門針對丹麥語和瑞典語網絡文本進行問題內容識別。
- 高精度:精確率達到 95.2%,誤報情況較少。
- 良好召回率:召回率為 70.2%,能有效捕捉問題內容。
📚 詳細文檔
預期用途和限制
該模型旨在用作網絡文本的初步過濾器,以幫助提高註釋效率。它僅在丹麥語和瑞典語內容上進行了測試。高精度(95.2%)意味著誤報很少,而召回率(70.2%)表明它能捕捉到大多數問題內容。
訓練和評估數據
更多信息待補充。
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:2e - 05
- 訓練批次大小:16
- 評估批次大小:16
- 隨機種子:42
- 優化器:使用 OptimizerNames.ADAMW_TORCH,β值為(0.9, 0.999),ε值為 1e - 08,無額外優化器參數
- 學習率調度器類型:線性
- 訓練輪數:10
- 混合精度訓練:原生 AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
精確率 |
召回率 |
F1值 |
AUC-ROC |
平衡準確率 |
平均精確率 |
0.3165 |
1.0 |
100 |
0.2333 |
0.95 |
0.6667 |
0.7835 |
0.8099 |
0.8304 |
0.7721 |
0.1929 |
2.0 |
200 |
0.1359 |
0.9130 |
0.7368 |
0.8155 |
0.9778 |
0.8626 |
0.9105 |
0.1775 |
3.0 |
300 |
0.2245 |
0.9268 |
0.6667 |
0.7755 |
0.9481 |
0.8290 |
0.8721 |
0.1553 |
4.0 |
400 |
0.1816 |
0.9524 |
0.7018 |
0.8081 |
0.9648 |
0.8480 |
0.8906 |
框架版本
- Transformers 4.48.0
- Pytorch 2.5.1+cu124
- Datasets 3.2.0
- Tokenizers 0.21.0
📄 許可證
本項目採用 MIT 許可證。
📦 模型信息
屬性 |
詳情 |
模型類型 |
scandi - fine - web - cleaner |
基礎模型 |
FacebookAI/xlm - roberta - base |
訓練數據集 |
data - is - better - together/fineweb - c |
語言支持 |
瑞典語、丹麥語 |
評估指標 |
精確率、召回率、F1值、AUC - ROC |