F

Formatclassifier

由WebOrganizer開發
FormatClassifier模型能根據網頁URL和文本內容,將網絡內容歸類至24個類別。
下載量 2,429
發布時間 : 2/10/2025

模型概述

該模型基於gte-base-en-v1.5微調,用於對網頁內容進行24類格式分類,適用於內容組織和數據預處理任務。

模型特點

多階段訓練
使用Llama-3.1-8B和Llama-3.1-405B-FP8標註的兩階段訓練數據
URL感知分類
同時利用URL和文本內容進行更準確的分類
高效推理
支持xformers加速和內存優化

模型能力

網頁內容分類
文本格式識別
URL分析

使用案例

內容管理
網頁內容歸檔
自動將網頁內容分類到預定義的24個格式類別中
提高內容組織效率
數據預處理
為下游任務(如搜索、推薦)提供格式標籤
提升下游任務性能
信息過濾
垃圾廣告檢測
識別並過濾垃圾廣告內容
19類專門用於垃圾廣告檢測
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase