S

Scandi Fine Web Cleaner

davanstrienによって開発
このモデルは、デンマーク語とスウェーデン語のウェブテキストにおける問題のあるコンテンツ(誤った言語、文字化けテキスト)を識別するためのデモ分類器です。
ダウンロード数 42
リリース時間 : 1/10/2025

モデル概要

このモデルは、FineWeb-cデータセットでXLM-RoBERTa-baseをファインチューニングして開発され、ウェブテキストの予備フィルターとして注釈効率を向上させることを目的としています。

モデル特徴

高精度
精度95.2%を達成し、誤報が少ないことを意味します
二言語サポート
デンマーク語とスウェーデン語のコンテンツに特化して最適化されています
ウェブテキストフィルタリング
ウェブデータの注釈効率を向上させるための予備フィルターとして設計されています

モデル能力

誤った言語コンテンツの識別
文字化けテキストの検出
ウェブテキスト分類

使用事例

データクリーニング
ウェブデータ前処理
データ注釈前に低品質コンテンツをフィルタリング
注釈効率と品質の向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase