Scandi - Fine - Web - Cleanerオープンソース分類器：デンマーク語、スウェーデン語のウェブページのテキストの問題内容を正確に識別

ホーム

Scandi Fine Web Cleaner

davanstrienによって開発

このモデルは、デンマーク語とスウェーデン語のウェブテキストにおける問題のあるコンテンツ（誤った言語、文字化けテキスト）を識別するためのデモ分類器です。

テキスト分類

Transformers

その他オープンソースライセンス:MIT #北欧ウェブテキストフィルタリング #高精度分類 #多言語エラー検出

ダウンロード数 42

リリース時間 : 1/10/2025

モデル概要

このモデルは、FineWeb-cデータセットでXLM-RoBERTa-baseをファインチューニングして開発され、ウェブテキストの予備フィルターとして注釈効率を向上させることを目的としています。

モデル特徴

高精度

精度95.2%を達成し、誤報が少ないことを意味します

二言語サポート

デンマーク語とスウェーデン語のコンテンツに特化して最適化されています

ウェブテキストフィルタリング

ウェブデータの注釈効率を向上させるための予備フィルターとして設計されています

モデル能力

誤った言語コンテンツの識別

文字化けテキストの検出

ウェブテキスト分類

使用事例

データクリーニング

ウェブデータ前処理

データ注釈前に低品質コンテンツをフィルタリング

注釈効率と品質の向上

🚀 スキャンディング・ファインウェブクリーナー

このモデルは、デンマーク語とスウェーデン語のウェブテキストに含まれる問題のあるコンテンツ（誤った言語、文字化けしたテキスト）を識別するデモ分類器です。これは、コミュニティのアノテーションを使ってウェブデータをフィルタリングする方法を探るブログ記事の一環として作成されました。このモデルは、[FacebookAI/xlm - roberta - base](https://huggingface.co/FacebookAI/xlm - roberta - base)を[データ・イズ・ベター・トゥゲザー/fineweb - c](https://huggingface.co/datasets/data - is - better - together/fineweb - c)データセットでファインチューニングすることで作成されました。

評価セットでは、以下の結果を達成しています。

適合率: 0.9524 (95.2%)
再現率: 0.7018 (70.2%)
F1値: 0.8081
AUC - ROC: 0.9648

🚀 クイックスタート

このモデルは、ウェブテキストの事前フィルターとして使用され、アノテーションの効率を向上させることを目的としています。デンマーク語とスウェーデン語のコンテンツでのみテストされています。高い適合率（95.2%）は誤検出が少ないことを意味し、再現率（70.2%）はほとんどの問題のあるコンテンツを捕捉できることを示しています。

✨ 主な機能

デンマーク語とスウェーデン語のウェブテキストに含まれる問題のあるコンテンツを識別する。
ウェブデータの事前フィルターとして使用し、アノテーションの効率を向上させる。

📦 インストール

ドキュメントにインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

ドキュメントにコード例が記載されていないため、このセクションをスキップします。

📚 ドキュメント

想定される使用方法と制限

このモデルは、ウェブテキストの事前フィルターとして使用され、アノテーションの効率を向上させることを目的としています。デンマーク語とスウェーデン語のコンテンツでのみテストされています。

学習と評価データ

詳細情報は必要です。

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率: 2e - 05
学習バッチサイズ: 16
評価バッチサイズ: 16
シード: 42
オプティマイザ: betas=(0.9, 0.999)、epsilon = 1e - 08 の OptimizerNames.ADAMW_TORCH を使用し、追加のオプティマイザ引数はありません
学習率スケジューラの種類: 線形
エポック数: 10
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	適合率	再現率	F1値	AUC - ROC	バランス付き正解率	平均適合率
0.3165	1.0	100	0.2333	0.95	0.6667	0.7835	0.8099	0.8304	0.7721
0.1929	2.0	200	0.1359	0.9130	0.7368	0.8155	0.9778	0.8626	0.9105
0.1775	3.0	300	0.2245	0.9268	0.6667	0.7755	0.9481	0.8290	0.8721
0.1553	4.0	400	0.1816	0.9524	0.7018	0.8081	0.9648	0.8480	0.8906

🔧 技術詳細

ドキュメントに十分な技術詳細が記載されていないため、このセクションをスキップします。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

モデル情報

プロパティ	詳細
モデルタイプ	デモ分類器
学習データ	data - is - better - together/fineweb - c
言語	sv, da
評価指標	適合率、再現率、F1値、AUC - ROC
モデル名	scandi - fine - web - cleaner