Scandi - Fine - Web - Cleaner開源分類器：精準識別丹麥語、瑞典語網頁文本問題內容

首頁

Scandi Fine Web Cleaner

由davanstrien開發

該模型是一個演示分類器，用於識別丹麥語和瑞典語網頁文本中的問題內容（錯誤語言、亂碼文本）。

文本分類

Transformers

其他開源協議:MIT #北歐網頁文本過濾 #高精確率分類 #多語言錯誤檢測

下載量 42

發布時間 : 1/10/2025

模型概述

該模型通過在FineWeb-c數據集上微調XLM-RoBERTa-base而開發，旨在作為網頁文本的初步過濾器，以提高標註效率。

模型特點

高精確率

精確率達到95.2%，意味著誤報較少

雙語支持

專門針對丹麥語和瑞典語內容進行優化

網頁文本過濾

設計用於提高網頁數據標註效率的初步過濾器

模型能力

識別錯誤語言內容

檢測亂碼文本

網頁文本分類

使用案例

數據清洗

網頁數據預處理

在數據標註前過濾低質量內容

提高標註效率和質量

🚀 斯堪的納維亞精細網絡清理器

本模型是一個用於識別丹麥語和瑞典語網絡文本中問題內容（語言錯誤、亂碼文本）的演示分類器。它是作為一篇博客文章的一部分創建的，該文章探討了如何使用社區註釋來過濾網絡數據。該模型是通過在 data-is-better-together/fineweb-c 數據集上對 FacebookAI/xlm-roberta-base 進行微調而創建的。

它在評估集上取得了以下結果：

精確率：0.9524（95.2%）
召回率：0.7018（70.2%）
F1值：0.8081
AUC-ROC：0.9648

🚀 快速開始

本模型可作為網絡文本的初步過濾器，幫助提高註釋效率。它僅在丹麥語和瑞典語內容上進行了測試。高精度（95.2%）意味著誤報很少，而召回率（70.2%）表明它能捕捉到大多數問題內容。

✨ 主要特性

特定語言適用：專門針對丹麥語和瑞典語網絡文本進行問題內容識別。
高精度：精確率達到 95.2%，誤報情況較少。
良好召回率：召回率為 70.2%，能有效捕捉問題內容。

📚 詳細文檔

預期用途和限制

該模型旨在用作網絡文本的初步過濾器，以幫助提高註釋效率。它僅在丹麥語和瑞典語內容上進行了測試。高精度（95.2%）意味著誤報很少，而召回率（70.2%）表明它能捕捉到大多數問題內容。

訓練和評估數據

更多信息待補充。

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率：2e - 05
訓練批次大小：16
評估批次大小：16
隨機種子：42
優化器：使用 OptimizerNames.ADAMW_TORCH，β值為(0.9, 0.999)，ε值為 1e - 08，無額外優化器參數
學習率調度器類型：線性
訓練輪數：10
混合精度訓練：原生 AMP

訓練結果

訓練損失	輪數	步數	驗證損失	精確率	召回率	F1值	AUC-ROC	平衡準確率	平均精確率
0.3165	1.0	100	0.2333	0.95	0.6667	0.7835	0.8099	0.8304	0.7721
0.1929	2.0	200	0.1359	0.9130	0.7368	0.8155	0.9778	0.8626	0.9105
0.1775	3.0	300	0.2245	0.9268	0.6667	0.7755	0.9481	0.8290	0.8721
0.1553	4.0	400	0.1816	0.9524	0.7018	0.8081	0.9648	0.8480	0.8906

框架版本

Transformers 4.48.0
Pytorch 2.5.1+cu124
Datasets 3.2.0
Tokenizers 0.21.0

📄 許可證

本項目採用 MIT 許可證。

📦 模型信息

屬性	詳情
模型類型	scandi - fine - web - cleaner
基礎模型	FacebookAI/xlm - roberta - base
訓練數據集	data - is - better - together/fineweb - c
語言支持	瑞典語、丹麥語
評估指標	精確率、召回率、F1值、AUC - ROC