🚀 WebOrganizer/FormatClassifier-NoURL
WebOrganizer/FormatClassifier-NoURL 是一个基于网页文本内容(不使用 URL 信息)将网页内容组织成 24 个类别的模型。它以 gte-base-en-v1.5 为基础模型,在特定的训练数据上进行微调,为网页内容分类提供了高效准确的解决方案。
[论文] [网站] [GitHub]
✨ 主要特性
- 精准分类:基于网页文本内容,将网页精准分类为 24 个类别。
- 高效微调:以 gte-base-en-v1.5 为基础模型,在特定训练数据上微调,提升分类效果。
- 灵活使用:支持多种输入格式,可根据需求灵活调整。
📦 安装指南
文档未提及具体安装步骤,可参考相关依赖库的安装说明,如 transformers
、xformers
等。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("WebOrganizer/FormatClassifier-NoURL")
model = AutoModelForSequenceClassification.from_pretrained(
"WebOrganizer/FormatClassifier-NoURL",
trust_remote_code=True,
use_memory_efficient_attention=False)
web_page = """How to make a good sandwich? [Click here to read article]"""
inputs = tokenizer([web_page], return_tensors="pt")
outputs = model(**inputs)
probs = outputs.logits.softmax(dim=-1)
print(probs.argmax(dim=-1))
高级用法
import torch
AutoModelForSequenceClassification.from_pretrained(
"WebOrganizer/FormatClassifier-NoURL",
trust_remote_code=True,
unpad_inputs=True,
use_memory_efficient_attention=True,
torch_dtype=torch.bfloat16
)
高级用法通过启用 unpadding 和内存高效注意力机制,使用高效的 gte-base-en-v1.5 实现,可提升推理效率。但需要安装 xformers
,更多信息可参考 这里。
📚 详细文档
该分类器期望输入格式如下:
{text}
你可以将模型的 logits
通过 softmax 转换,以获得以下 24 个类别的概率分布(按标签顺序,也可查看模型配置中的 id2label
和 label2id
):
- 学术写作
- 内容列表
- 创意写作
- 客户支持
- 评论区
- 常见问题解答
- 截断内容
- 知识文章
- 法律声明
- 清单文章
- 新闻文章
- 非虚构写作
- 关于(组织)
- 新闻(组织)
- 关于(个人)
- 个人博客
- 产品页面
- 问答论坛
- 垃圾邮件/广告
- 结构化数据
- 文档
- 音频转录
- 教程
- 用户评论
类别的完整定义可在 分类配置 中找到。
📄 许可证
文档未提及许可证信息。
🔧 技术细节
该模型基于 gte-base-en-v1.5,拥有 140M 参数,在以下训练数据上进行微调:
- WebOrganizer/FormatAnnotations-Llama-3.1-8B:由 Llama-3.1-8B 标注的 100 万篇文档(第一阶段训练)
- WebOrganizer/FormatAnnotations-Llama-3.1-405B-FP8:由 Llama-3.1-405B-FP8 标注的 10 万篇文档(第二阶段训练)
所有领域分类器
引用
@article{wettig2025organize,
title={Organize the Web: Constructing Domains Enhances Pre-Training Data Curation},
author={Alexander Wettig and Kyle Lo and Sewon Min and Hannaneh Hajishirzi and Danqi Chen and Luca Soldaini},
journal={arXiv preprint arXiv:2502.10341},
year={2025}
}