🚀 WebOrganizer/TopicClassifier
TopicClassifier 能夠根據網頁的 URL 和文本內容,將網頁內容劃分為 17 個類別。該模型基於 gte-base-en-v1.5 微調而來,擁有 1.4 億參數,在特定訓練數據上進行了優化。
[論文] [網站] [GitHub]
✨ 主要特性
- 基於網頁的 URL 和文本內容,將網頁內容組織成 17 個類別。
- 以 gte-base-en-v1.5 為基礎模型,參數規模達 1.4 億。
- 在特定訓練數據上進行了兩階段的微調,提升分類性能。
📦 安裝指南
文檔未提及具體安裝步驟,跳過該章節。
💻 使用示例
基礎用法
此分類器期望輸入採用以下格式:
{url}
{text}
示例代碼如下:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("WebOrganizer/TopicClassifier")
model = AutoModelForSequenceClassification.from_pretrained(
"WebOrganizer/TopicClassifier",
trust_remote_code=True,
use_memory_efficient_attention=False)
web_page = """http://www.example.com
How to build a computer from scratch? Here are the components you need..."""
inputs = tokenizer([web_page], return_tensors="pt")
outputs = model(**inputs)
probs = outputs.logits.softmax(dim=-1)
print(probs.argmax(dim=-1))
你可以使用 softmax 函數將模型的 logits
轉換為概率分佈,該分佈涵蓋以下 24 個類別(按標籤順序排列,也可查看模型配置中的 id2label
和 label2id
):
- 成人內容
- 藝術與設計
- 軟件開發
- 犯罪與法律
- 教育與就業
- 硬件
- 娛樂
- 社交生活
- 時尚與美容
- 金融與商業
- 食品與餐飲
- 遊戲
- 健康
- 歷史
- 家居與愛好
- 工業
- 文學
- 政治
- 宗教
- 科學與技術
- 軟件
- 體育與健身
- 交通
- 旅遊
這些類別的完整定義可在 分類法配置 中找到。
高級用法
為了實現高效推理,我們建議你啟用未填充(unpadding)和內存高效注意力機制,使用高效的 gte-base-en-v1.5 實現。這 需要安裝 xformers
(更多信息請參考 此處),並按如下方式加載模型:
AutoModelForSequenceClassification.from_pretrained(
"WebOrganizer/TopicClassifier",
trust_remote_code=True,
unpad_inputs=True,
use_memory_efficient_attention=True,
torch_dtype=torch.bfloat16
)
📚 詳細文檔
所有領域分類器
🔧 技術細節
模型是基於 gte-base-en-v1.5 進行微調的,該基礎模型擁有 1.4 億參數。微調過程分為兩個階段,使用了以下訓練數據:
- WebOrganizer/TopicAnnotations-Llama-3.1-8B:由 Llama-3.1-8B 標註的 100 萬篇文檔(第一階段訓練)
- WebOrganizer/TopicAnnotations-Llama-3.1-405B-FP8:由 Llama-3.1-405B-FP8 標註的 10 萬篇文檔(第二階段訓練)
📄 許可證
文檔未提及許可證信息,跳過該章節。
📖 引用
如果你使用了該模型,請引用以下論文:
@article{wettig2025organize,
title={Organize the Web: Constructing Domains Enhances Pre-Training Data Curation},
author={Alexander Wettig and Kyle Lo and Sewon Min and Hannaneh Hajishirzi and Danqi Chen and Luca Soldaini},
journal={arXiv preprint arXiv:2502.10341},
year={2025}
}