fineweb-edu-fasttext-classifierオープンソース分類器 - ウェブページの教育的価値を迅速に評価し、CPU処理を最適化する

Fineweb Edu Fasttext Classifier

kenhktsuiによって開発

FastTextベースの軽量分類器で、ウェブコンテンツの教育価値を評価し、CPU処理速度を最適化

ダウンロード数 20

リリース時間 : 6/6/2024

モデル概要

このモデルはウェブコンテンツの教育価値分類を評価するために使用され、特にCPU上での処理速度を最適化しており、大規模データフィルタリングに適しています。Transformerベースのモデルと比較して、一部のカテゴリーでは同等の性能を維持しながらより軽量です。

モデル特徴

高性能処理

CPU上で毎秒2000以上のサンプルを処理可能で、大規模データフィルタリングに適している

軽量代替案

Transformerモデルの軽量代替として、基本的な分類タスクで相当の性能を維持

保守的評価戦略

教育価値を過大評価せず過小評価する傾向があり、事前学習データフィルタリングに適している

モデル能力

テキスト分類

教育価値評価

大規模データ処理

使用事例

教育データフィルタリング

事前学習データ選別

LLM事前学習前に低教育価値コンテンツをフィルタリング

67.7%のサンプルを正確に識別し、保守的フィルタリング戦略により高品質データの誤削除を削減

教育リソース評価

ウェブコンテンツの教育価値レベルを自動評価

基本カテゴリ(0-2レベル)ではTransformerモデルと同等の性能

🚀 FineWeb-Edu FastText分類器

このFastText分類器は、トレーニングデータfineweb-edu-llama3-annotationsに基づいて、ウェブページの教育的価値を判断するためのものです。

🚀 クイックスタート

このFastText分類器は、トレーニングデータfineweb-edu-llama3-annotationsを使用して、ウェブページの教育的価値を判断します。主な目的は以下の2つです。

⚡ スループットの最適化：CPUで毎秒2000以上のサンプルを分類できるため、事前学習中にリアルタイムで使用したり、CPUで大量のデータを処理することができます。
🧪 FastTextとTransformerベースのモデルの比較：この軽量で能力に限界のあるモデルは、元のモデルHuggingFaceFW/fineweb-edu-classifierとどのように比較されるでしょうか？

FastTextアプローチは、教育的価値の異なる定義に基づく独自開発の教育分類器に触発されています。詳細はkenhktsui/llm-data-textbook-quality-fasttext-classifier-v2を参照してください。

✨ 主な機能

高速な分類能力：CPUで毎秒2000以上のサンプルを分類できます。
軽量なモデル：限られた能力でありながら、Transformerベースのモデルとの比較が可能です。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、必要なライブラリをインストールしてください。

pip install fasttext huggingface_hub

💻 使用例

基本的な使用法

from typing import List
import re
from huggingface_hub import hf_hub_download
import fasttext


model_hf = fasttext.load_model(hf_hub_download("kenhktsui/fineweb-edu-fasttext-classifier", "model.bin"))


def replace_newlines(text: str) -> str:
  return re.sub("\n+", " ", text)


def predict(text_list: List[str]) -> List[dict]:
  text_list = [replace_newlines(text) for text in text_list]
  pred = model_hf.predict(text_list)
  return [{"label": int(l[0].lstrip("__label__")), "score": s[0]}
           for l, s in zip(*pred)]


predict(["Hi"])
# Output: [{'label': 0, 'score': 1.00001}]

📚 ドキュメント

📊評価

最後の46867サンプルをテストデータとして使用していますが、これはHuggingFaceFW/fineweb-edu-classifierと正確に同じテストデータではありません。

分類レポート

              precision    recall  f1-score   support

           0       0.72      0.44      0.55      5704
           1       0.73      0.87      0.80     26595
           2       0.52      0.49      0.50     10350
           3       0.48      0.33      0.39      3397
           4       0.69      0.03      0.06       819
           5       0.00      0.00      0.00         2

    accuracy                           0.68     46867
   macro avg       0.52      0.36      0.38     46867
weighted avg       0.67      0.68      0.66     46867

以下の表は、FastTextモデルとTransformerベースのモデルを比較しています。

ラベル	このモデル	HuggingFaceFW/fineweb-edu-classifier
0	0.55	0.59
1	0.80	0.81
2	0.50	0.59
3	0.39	0.53
4	0.06	0.44
5	0.00	0.02

ラベル0、1、2は元のモデルと比較可能です。ラベル3では性能の低下が顕著になり、ラベル4ではさらに拡大します。これはFastTextモデルの能力が限られているためです。したがって、この分類器はラベル0、1、2では適度に良好な性能を発揮し、ラベル3でも多少の性能低下で使用できます。

混同行列

       [ 2537  3098    65     4     0     0]
       [  944 23037  2491   123     0     0]
y_true [   26  4742  5048   533     1     0]
       [    4   434  1846  1105     8     0]
       [    0    38   213   544    24     0]
       [    0     0     0     0     2     0]
                       y_pred

このモデルの精度は68%で、教育的価値を過大評価するよりも過小評価する傾向があります。この保守的な特性は、大量のデータをフィルタリングするのに適しています。