math-fasttext-classifierオープンソーステキスト分類器 - 無料でデプロイ可能、数学テキスト分類とLLMデータ整理に使用

Math Fasttext Classifier

kenhktsuiによって開発

fasttextベースのテキスト分類器で、テキストを数学クラスまたはその他のクラスに分類するために使用され、LLM事前学習データ整理に適しています

テキスト分類英語オープンソースライセンス:MIT #数学テキスト分類 #高速推論 #事前学習データ拡張

ダウンロード数 124

リリース時間 : 2/25/2025

モデル概要

このモデルは、数学関連コンテンツを識別するための効率的なfasttext分類器です。160万レコードのバランスデータセットでトレーニングされ、テストF1スコアは0.99に達し、LLMの数学能力事前学習データ整理を強化するのに特に適しています。

モデル特徴

高性能分類

テストセットで0.99のF1スコアを達成し、数学と非数学コンテンツを正確に区別できます

超高速処理

CPU上で約2000ドキュメント/秒の高スループット処理が可能

データ整理専用

LLM事前学習データ整理のために特別に設計されており、モデルの数学能力を強化するのに最適

バランスデータセット

50:50比率の数学と非数学コンテンツ混合データセットを使用してトレーニング

モデル能力

テキスト分類

数学コンテンツ識別

高速テキスト処理

使用事例

LLM事前学習

数学能力強化

LLM事前学習データ中の数学関連コンテンツを選別・強化するために使用

QWEN2.5-MATHの例に示すように、LLMの数学推論能力向上に役立ちます

コンテンツフィルタリング

数学コンテンツ選別

大量のテキストから数学関連コンテンツを迅速に識別

数学と非数学コンテンツを効率的に分離

🚀 数学ファストテキスト分類器

この分類器は、事前学習データセットの選別に使用するfasttext分類器コレクションの一部です。この分類器は、テキストを「数学」または「その他」に分類します。モデルは、ウェブサイト上の数学と非数学のデータを50:50で混合した160万件のレコードで学習され、テストデータでのF1スコアは0.99となりました（信じられないほど良い結果ですが）。これは、数学データのアップサンプリングを意図したものです。この分類器は、大規模言語モデル（LLM）の事前学習データ選別に使用でき、数学的能力を強化することができます。CPUでのスループットは約2000文書/秒と、非常に高速です⚡。

「古い」fasttext分類器を見下さないでください！実際には、良くスケーラブルな手法です。例えば、QWEN2.5 - MATHでは、fasttextを使用して事前学習データを選別していますが、その分類器はオープンソースではありません。

データセット

🚀 クイックスタート

このセクションでは、数学ファストテキスト分類器の基本的な使い方を説明します。

✨ 主な機能

テキストを「数学」または「その他」に分類します。
160万件のレコードで学習され、テストデータでのF1スコアは0.99です。
CPUでのスループットは約2000文書/秒と非常に高速です。
LLMの事前学習データ選別に使用できます。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from typing import List
import re
from huggingface_hub import hf_hub_download
import fasttext


model_hf = fasttext.load_model(hf_hub_download("kenhktsui/maths-fasttext-classifier", "model.bin"))


def replace_newlines(text: str) -> str:
  return re.sub("\n+", " ", text)


def predict(text_list: List[str]) -> List[dict]:
  text_list = [replace_newlines(text) for text in text_list]
  pred = model.predict(text_list)
  return [{"label": l[0].lstrip("__label__"), "score": s[0]}
           for l, s in zip(*pred)]


predict([
  """This is a lightning fast model, which can classify at throughtput of 2000 doc/s with CPU""",
  """Differential geometry is a mathematical discipline that studies the geometry of smooth shapes and smooth spaces, otherwise known as smooth manifolds. It uses the techniques of single variable calculus, vector calculus, linear algebra and multilinear algebra.""",
  """Given $p$: $|4x-3|\leqslant 1$ and $q$: $x^{2}-(2a+1)x+a^{2}+a\leqslant 0$, find the range of values for $a$ if $p$ is a necessary but not sufficient condition for $q$."""
])
# [{'label': 'Others', 'score': 1.00000834},
# {'label': 'Maths', 'score': 0.99995351},
# {'label': 'Maths', 'score': 0.99801832}]

高度な使用法

このREADMEに高度な使用法のコード例が記載されていないため、このサブセクションは省略されます。

📚 ドキュメント

評価

              precision    recall  f1-score   support

       Maths       0.99      0.98      0.99    200000
      Others       0.98      0.99      0.99    200000

    accuracy                           0.99    400000
   macro avg       0.99      0.99      0.99    400000
weighted avg       0.99      0.99      0.99    400000