開源文本分類模型llm-data-textbook-quality-fasttext-classifier-v1，精準篩選教科書級數據！

Llm Data Textbook Quality Fasttext Classifier V1

由kenhktsui開發

基於fasttext構建的文本分類模型，用於判斷文本是否達到教科書級數據質量，可作為大語言模型訓練時的數據篩選工具。

下載量 35

發布時間 : 4/28/2024

模型概述

該模型是llm-data-textbook-quality-classifier-v1的優化版本，不僅獲得了更高的F1分數，還能在CPU上每秒分類超過2000個樣本。

高性能

在CPU上每秒可分類超過2000個樣本，適合大規模數據處理。

高準確率

訓練集F1分數達0.8695，測試集F1分數達0.8485，表現優異。

教科書級質量檢測

專門針對教科書級數據質量進行優化，能有效篩選高質量訓練數據。

文本質量分類

數據篩選

大規模文本處理

數據預處理

大語言模型訓練數據篩選

在訓練大語言模型前，使用該模型篩選高質量教科書級數據。

提高模型訓練效果和生成質量

內容質量評估

教育內容質量評估

評估教育類文本是否達到教科書級質量標準。

幫助識別高質量教育內容

數據集	F1 分數
訓練集	0.8695
測試集	0.8485

數據集	採樣方式	平均質量分數
nampdn-ai/tiny-orca-textbooks	全量	0.8350
nampdn-ai/tiny-textbooks	全量	0.7535
SciPhi/textbooks-are-all-you-need-lite	全量	0.7202
vikp/textbook_quality_programming	全量	0.5447
BEE-spoke-data/fineweb-100k_en-med	全量	0.4754
pszemraj/simple_wikipedia_LM	全量	0.4704
mattymchen/refinedweb-3m	全量	0.2963
JeanKaddour/minipile	全量	0.2562