🚀 WebOrganizer/TopicClassifier-NoURL
WebOrganizer/TopicClassifier-NoURL 是一個基於網頁文本內容(不使用 URL 信息)將網頁內容劃分為 17 個類別的分類器,為網頁內容的組織和分類提供了高效的解決方案。
[論文] [網站] [GitHub]
✨ 主要特性
- 精準分類:基於網頁文本內容,將網頁精準劃分為 17 個類別。
- 高效模型:採用 gte-base-en-v1.5 模型,參數為 140M,經過精心微調。
- 多階段訓練:使用不同數據集進行兩階段訓練,提升模型性能。
📦 安裝指南
文檔未提及安裝步驟,跳過此章節。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("WebOrganizer/TopicClassifier-NoURL")
model = AutoModelForSequenceClassification.from_pretrained(
"WebOrganizer/TopicClassifier-NoURL",
trust_remote_code=True,
use_memory_efficient_attention=False)
web_page = """How to build a computer from scratch? Here are the components you need..."""
inputs = tokenizer([web_page], return_tensors="pt")
outputs = model(**inputs)
probs = outputs.logits.softmax(dim=-1)
print(probs.argmax(dim=-1))
高級用法
AutoModelForSequenceClassification.from_pretrained(
"WebOrganizer/TopicClassifier-NoURL",
trust_remote_code=True,
unpad_inputs=True,
use_memory_efficient_attention=True,
torch_dtype=torch.bfloat16
)
📚 詳細文檔
所有領域分類器
分類類別
模型可以將 logits
通過 softmax 轉換為概率分佈,涵蓋以下 24 個類別(按標籤順序,也可查看模型配置中的 id2label
和 label2id
):
- 成人內容
- 藝術與設計
- 軟件開發
- 犯罪與法律
- 教育與就業
- 硬件
- 娛樂
- 社交生活
- 時尚與美容
- 金融與商業
- 食品與餐飲
- 遊戲
- 健康
- 歷史
- 家居與愛好
- 工業
- 文學
- 政治
- 宗教
- 科學與技術
- 軟件
- 體育與健身
- 交通
- 旅遊
這些類別的完整定義可在 分類配置 中找到。
高效推理
建議使用高效的 gte-base-en-v1.5 實現,啟用 unpadding 和內存高效注意力機制。這 需要安裝 xformers
(更多信息見 此處)。
🔧 技術細節
模型信息
📄 許可證
文檔未提及許可證信息,跳過此章節。
📚 引用
@article{wettig2025organize,
title={Organize the Web: Constructing Domains Enhances Pre-Training Data Curation},
author={Alexander Wettig and Kyle Lo and Sewon Min and Hannaneh Hajishirzi and Danqi Chen and Luca Soldaini},
journal={arXiv preprint arXiv:2502.10341},
year={2025}
}