L

Llm Data Textbook Quality Fasttext Classifier V2

由kenhktsui開發
這是一個基於fasttext構建的教育價值分類器,用於判斷網絡文本是否具有較高的教育價值,適用於大語言模型(LLM)預訓練數據篩選。
下載量 3,651
發布時間 : 5/19/2024

模型概述

該分類器可以判斷文本的教育價值水平,分為高、中、低三個等級,特別適用於LLM訓練數據的質量篩選。

模型特點

高效CPU推理
基於fasttext構建,在CPU上每秒可分類超過2000個樣本,適合即時使用
三級教育價值評估
提供高、中、低三個教育價值等級,比二元分類提供更細粒度的評估
量化模型支持
提供量化模型版本model_quantized.bin,優化推理效率

模型能力

文本分類
教育價值評估
數據質量篩選

使用案例

LLM訓練數據篩選
預訓練數據過濾
在LLM預訓練前篩選高質量教育價值的文本數據
提高訓練數據質量,改善模型性能
教育內容分析
教材內容評估
評估不同教育材料的教育價值水平
幫助識別高質量教育內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase