S

Scandi Fine Web Cleaner

由davanstrien開發
該模型是一個演示分類器,用於識別丹麥語和瑞典語網頁文本中的問題內容(錯誤語言、亂碼文本)。
下載量 42
發布時間 : 1/10/2025

模型概述

該模型通過在FineWeb-c數據集上微調XLM-RoBERTa-base而開發,旨在作為網頁文本的初步過濾器,以提高標註效率。

模型特點

高精確率
精確率達到95.2%,意味著誤報較少
雙語支持
專門針對丹麥語和瑞典語內容進行優化
網頁文本過濾
設計用於提高網頁數據標註效率的初步過濾器

模型能力

識別錯誤語言內容
檢測亂碼文本
網頁文本分類

使用案例

數據清洗
網頁數據預處理
在數據標註前過濾低質量內容
提高標註效率和質量
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase