L

Llm Data Textbook Quality Fasttext Classifier V1

由kenhktsui開發
基於fasttext構建的文本分類模型,用於判斷文本是否達到教科書級數據質量,可作為大語言模型訓練時的數據篩選工具。
下載量 35
發布時間 : 4/28/2024

模型概述

該模型是llm-data-textbook-quality-classifier-v1的優化版本,不僅獲得了更高的F1分數,還能在CPU上每秒分類超過2000個樣本。

模型特點

高性能
在CPU上每秒可分類超過2000個樣本,適合大規模數據處理。
高準確率
訓練集F1分數達0.8695,測試集F1分數達0.8485,表現優異。
教科書級質量檢測
專門針對教科書級數據質量進行優化,能有效篩選高質量訓練數據。

模型能力

文本質量分類
數據篩選
大規模文本處理

使用案例

數據預處理
大語言模型訓練數據篩選
在訓練大語言模型前,使用該模型篩選高質量教科書級數據。
提高模型訓練效果和生成質量
內容質量評估
教育內容質量評估
評估教育類文本是否達到教科書級質量標準。
幫助識別高質量教育內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase