F

Formatclassifier NoURL

由WebOrganizer開發
基於網頁文本內容(不使用URL信息)將網絡內容劃分為24個類別的分類模型
下載量 730
發布時間 : 2/10/2025

模型概述

該模型是在gte-base-en-v1.5基礎上微調而成,專門用於對網頁文本內容進行格式分類,支持24種不同格式類型的識別。

模型特點

無URL分類
僅基於文本內容進行分類,不依賴URL信息
24種格式分類
支持從學術寫作到用戶評價等24種不同網頁格式的識別
兩階段訓練
使用Llama-3.1-8B和Llama-3.1-405B-FP8標註的數據進行兩階段微調

模型能力

網頁內容分類
文本格式識別
多類別概率預測

使用案例

內容管理
網頁內容歸檔
自動分類和組織大量網頁內容
提高內容管理效率
信息檢索
搜索結果過濾
根據內容格式過濾搜索結果
提升搜索相關性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase