T

Topicclassifier

由WebOrganizer開發
基於gte-base-en-v1.5微調的主題分類模型,可將網頁內容分類至24個類別
下載量 2,288
發布時間 : 2/10/2025

模型概述

該模型能夠根據網頁URL和文本內容,將網絡內容自動歸類至24個預定義主題類別中。適用於內容過濾、信息組織等場景。

模型特點

雙階段訓練
先使用Llama-3.1-8B標註的100萬文檔訓練,再使用Llama-3.1-405B-FP8標註的10萬文檔精調
URL+文本雙輸入
同時考慮網頁URL和文本內容進行綜合分類判斷
高效推理支持
支持解填充和內存高效注意力機制,可啟用xformers加速

模型能力

網頁內容分類
多類別概率預測
文本理解

使用案例

內容管理
網頁自動分類
對抓取的網頁內容進行自動主題歸類
準確識別24種主題類別
信息過濾
成人內容過濾
識別並過濾不當內容
可準確識別成人內容類別
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase