math-fasttext-classifier开源文本分类器 - 免费部署，用于数学文本分类与LLM数据整理

首页

Math Fasttext Classifier

由 kenhktsui 开发

一个基于fasttext的文本分类器，用于将文本分类为数学类或其他类，适用于LLM预训练数据整理

文本分类英语开源协议:MIT #数学文本分类 #高速推理 #预训练数据增强

下载量 124

发布时间 : 2/25/2025

模型简介

该模型是一个高效的fasttext分类器，专门用于识别数学相关内容。它在160万条记录的平衡数据集上训练，测试F1得分达到0.99，特别适合用于增强LLM的数学能力预训练数据整理。

模型特点

高性能分类

在测试集上达到0.99的F1分数，能够准确区分数学和非数学内容

极速处理

在CPU上可实现约2000文档/秒的高吞吐量处理

数据整理专用

专为LLM预训练数据整理设计，特别适合增强模型的数学能力

平衡数据集

使用50:50比例的数学和非数学内容混合数据集训练

模型能力

文本分类

数学内容识别

高速文本处理

使用案例

LLM预训练

数学能力增强

用于筛选和增强LLM预训练数据中的数学相关内容

可帮助提升LLM的数学推理能力，如QWEN2.5-MATH所示例

内容过滤

数学内容筛选

从大量文本中快速识别数学相关内容

高效分离数学和非数学内容

🚀 数学快速文本分类器

这是一个用于筛选预训练数据集的文本分类器，可将文本分为数学和其他类别，在数学数据处理上表现出色且速度极快。

🚀 快速开始

本分类器是快速文本分类器集合的一部分，用于筛选预训练数据集。它可以将文本分为“数学”或“其他”类别。该模型在 160 万条记录上进行训练，这些记录来自网站，数学和非数学内容各占 50%，在测试集上的 F1 分数达到了 0.99（好得令人难以置信？）。这是对数学数据有意进行过采样的结果。该分类器可用于大语言模型（LLM）预训练数据的筛选，以增强模型在数学方面的能力。它速度极快 ⚡，使用 CPU 时吞吐量约为 2000 篇文档/秒。

不要低估“老派”的快速文本分类器！它实际上是一种优秀且可扩展的实践方法。例如，QWEN2.5 - MATH 就利用快速文本筛选预训练数据，尽管其分类器并未开源。

✨ 主要特性

高效分类：能够快速准确地将文本分为数学和其他类别。
数据均衡：训练数据中数学和非数学内容比例为 50:50。
性能优异：在测试集上 F1 分数达到 0.99。
速度极快：使用 CPU 时吞吐量约为 2000 篇文档/秒。

📦 安装指南

文档未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

from typing import List
import re
from huggingface_hub import hf_hub_download
import fasttext


model_hf = fasttext.load_model(hf_hub_download("kenhktsui/maths-fasttext-classifier", "model.bin"))


def replace_newlines(text: str) -> str:
  return re.sub("\n+", " ", text)


def predict(text_list: List[str]) -> List[dict]:
  text_list = [replace_newlines(text) for text in text_list]
  pred = model.predict(text_list)
  return [{"label": l[0].lstrip("__label__"), "score": s[0]}
           for l, s in zip(*pred)]


predict([
  """This is a lightning fast model, which can classify at throughtput of 2000 doc/s with CPU""",
  """Differential geometry is a mathematical discipline that studies the geometry of smooth shapes and smooth spaces, otherwise known as smooth manifolds. It uses the techniques of single variable calculus, vector calculus, linear algebra and multilinear algebra.""",
  """Given $p$: $|4x - 3|\leqslant 1$ and $q$: $x^{2}-(2a + 1)x + a^{2}+a\leqslant 0$, find the range of values for $a$ if $p$ is a necessary but not sufficient condition for $q$."""
])
# [{'label': 'Others', 'score': 1.00000834},
# {'label': 'Maths', 'score': 0.99995351},
# {'label': 'Maths', 'score': 0.99801832}]

📚 详细文档

评估指标

属性	详情
模型类型	快速文本分类器
训练数据	来自网站的 160 万条记录，数学和非数学内容各占 50%
评估指标	F1 分数
测试集 F1 分数	0.99

评估结果

              precision    recall  f1-score   support

       Maths       0.99      0.98      0.99    200000
      Others       0.98      0.99      0.99    200000

    accuracy                           0.99    400000
   macro avg       0.99      0.99      0.99    400000
weighted avg       0.99      0.99      0.99    400000