🚀 WebOrganizer/FormatClassifier-NoURL
WebOrganizer/FormatClassifier-NoURL 是一個基於網頁文本內容(不使用 URL 信息)將網頁內容組織成 24 個類別的模型。它以 gte-base-en-v1.5 為基礎模型,在特定的訓練數據上進行微調,為網頁內容分類提供了高效準確的解決方案。
[論文] [網站] [GitHub]
✨ 主要特性
- 精準分類:基於網頁文本內容,將網頁精準分類為 24 個類別。
- 高效微調:以 gte-base-en-v1.5 為基礎模型,在特定訓練數據上微調,提升分類效果。
- 靈活使用:支持多種輸入格式,可根據需求靈活調整。
📦 安裝指南
文檔未提及具體安裝步驟,可參考相關依賴庫的安裝說明,如 transformers
、xformers
等。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("WebOrganizer/FormatClassifier-NoURL")
model = AutoModelForSequenceClassification.from_pretrained(
"WebOrganizer/FormatClassifier-NoURL",
trust_remote_code=True,
use_memory_efficient_attention=False)
web_page = """How to make a good sandwich? [Click here to read article]"""
inputs = tokenizer([web_page], return_tensors="pt")
outputs = model(**inputs)
probs = outputs.logits.softmax(dim=-1)
print(probs.argmax(dim=-1))
高級用法
import torch
AutoModelForSequenceClassification.from_pretrained(
"WebOrganizer/FormatClassifier-NoURL",
trust_remote_code=True,
unpad_inputs=True,
use_memory_efficient_attention=True,
torch_dtype=torch.bfloat16
)
高級用法通過啟用 unpadding 和內存高效注意力機制,使用高效的 gte-base-en-v1.5 實現,可提升推理效率。但需要安裝 xformers
,更多信息可參考 這裡。
📚 詳細文檔
該分類器期望輸入格式如下:
{text}
你可以將模型的 logits
通過 softmax 轉換,以獲得以下 24 個類別的概率分佈(按標籤順序,也可查看模型配置中的 id2label
和 label2id
):
- 學術寫作
- 內容列表
- 創意寫作
- 客戶支持
- 評論區
- 常見問題解答
- 截斷內容
- 知識文章
- 法律聲明
- 清單文章
- 新聞文章
- 非虛構寫作
- 關於(組織)
- 新聞(組織)
- 關於(個人)
- 個人博客
- 產品頁面
- 問答論壇
- 垃圾郵件/廣告
- 結構化數據
- 文檔
- 音頻轉錄
- 教程
- 用戶評論
類別的完整定義可在 分類配置 中找到。
📄 許可證
文檔未提及許可證信息。
🔧 技術細節
該模型基於 gte-base-en-v1.5,擁有 140M 參數,在以下訓練數據上進行微調:
- WebOrganizer/FormatAnnotations-Llama-3.1-8B:由 Llama-3.1-8B 標註的 100 萬篇文檔(第一階段訓練)
- WebOrganizer/FormatAnnotations-Llama-3.1-405B-FP8:由 Llama-3.1-405B-FP8 標註的 10 萬篇文檔(第二階段訓練)
所有領域分類器
引用
@article{wettig2025organize,
title={Organize the Web: Constructing Domains Enhances Pre-Training Data Curation},
author={Alexander Wettig and Kyle Lo and Sewon Min and Hannaneh Hajishirzi and Danqi Chen and Luca Soldaini},
journal={arXiv preprint arXiv:2502.10341},
year={2025}
}