F

Fineweb Edu Fasttext Classifier

kenhktsuiによって開発
FastTextベースの軽量分類器で、ウェブコンテンツの教育価値を評価し、CPU処理速度を最適化
ダウンロード数 20
リリース時間 : 6/6/2024

モデル概要

このモデルはウェブコンテンツの教育価値分類を評価するために使用され、特にCPU上での処理速度を最適化しており、大規模データフィルタリングに適しています。Transformerベースのモデルと比較して、一部のカテゴリーでは同等の性能を維持しながらより軽量です。

モデル特徴

高性能処理
CPU上で毎秒2000以上のサンプルを処理可能で、大規模データフィルタリングに適している
軽量代替案
Transformerモデルの軽量代替として、基本的な分類タスクで相当の性能を維持
保守的評価戦略
教育価値を過大評価せず過小評価する傾向があり、事前学習データフィルタリングに適している

モデル能力

テキスト分類
教育価値評価
大規模データ処理

使用事例

教育データフィルタリング
事前学習データ選別
LLM事前学習前に低教育価値コンテンツをフィルタリング
67.7%のサンプルを正確に識別し、保守的フィルタリング戦略により高品質データの誤削除を削減
教育リソース評価
ウェブコンテンツの教育価値レベルを自動評価
基本カテゴリ(0-2レベル)ではTransformerモデルと同等の性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase