🚀 WebOrganizer/FormatClassifier
FormatClassifier 基于网页的 URL 和文本内容,将网页内容组织成 24 个类别,为网页内容的分类整理提供了高效的解决方案。
🚀 快速开始
FormatClassifier 基于网页的 URL 和文本内容,将网页内容组织成 24 个类别。该模型是在 gte-base-en-v1.5(拥有 1.4 亿参数)的基础上,在以下训练数据上进行微调得到的:
- WebOrganizer/FormatAnnotations-Llama-3.1-8B:由 Llama-3.1-8B 标注的 100 万份文档(第一阶段训练)
- WebOrganizer/FormatAnnotations-Llama-3.1-405B-FP8:由 Llama-3.1-405B-FP8 标注的 10 万份文档(第二阶段训练)
[论文] [网站] [GitHub]
所有领域分类器
💻 使用示例
基础用法
此分类器期望输入采用以下格式:
{url}
{text}
示例代码如下:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("WebOrganizer/FormatClassifier")
model = AutoModelForSequenceClassification.from_pretrained(
"WebOrganizer/FormatClassifier",
trust_remote_code=True,
use_memory_efficient_attention=False)
web_page = """http://www.example.com
How to make a good sandwich? [Click here to read article]"""
inputs = tokenizer([web_page], return_tensors="pt")
outputs = model(**inputs)
probs = outputs.logits.softmax(dim=-1)
print(probs.argmax(dim=-1))
你可以使用 softmax 函数对模型的 logits
进行转换,以获得以下 24 个类别上的概率分布(按标签顺序排列,另见模型配置中的 id2label
和 label2id
):
- 学术写作
- 内容列表
- 创意写作
- 客户支持
- 评论区
- 常见问题解答
- 截断内容
- 知识文章
- 法律声明
- 清单文章
- 新闻文章
- 非虚构写作
- 关于(组织)
- 新闻(组织)
- 关于(个人)
- 个人博客
- 产品页面
- 问答论坛
- 垃圾邮件/广告
- 结构化数据
- 文档
- 音频转录
- 教程
- 用户评价
这些类别的完整定义可在 分类法配置 中找到。
高级用法
高效推理
我们建议你通过启用无填充和内存高效注意力机制来使用高效的 gte-base-en-v1.5 实现。这 需要安装 xformers
(更多信息请见 此处),并按如下方式加载模型:
AutoModelForSequenceClassification.from_pretrained(
"WebOrganizer/FormatClassifier",
trust_remote_code=True,
unpad_inputs=True,
use_memory_efficient_attention=True,
torch_dtype=torch.bfloat16
)
📚 详细文档
属性 |
详情 |
库名称 |
transformers |
数据集 |
WebOrganizer/FormatAnnotations-Llama-3.1-8B、WebOrganizer/FormatAnnotations-Llama-3.1-405B-FP8 |
基础模型 |
Alibaba-NLP/gte-base-en-v1.5 |
📄 许可证
引用
如果你使用了该模型,请引用以下论文:
@article{wettig2025organize,
title={Organize the Web: Constructing Domains Enhances Pre-Training Data Curation},
author={Alexander Wettig and Kyle Lo and Sewon Min and Hannaneh Hajishirzi and Danqi Chen and Luca Soldaini},
journal={arXiv preprint arXiv:2502.10341},
year={2025}
}