🚀 WebOrganizer/FormatClassifier-NoURL
FormatClassifier-NoURLは、ウェブページのテキスト内容に基づいて(URL情報を使用せずに)ウェブコンテンツを24のカテゴリに分類します。
[論文] [ウェブサイト] [GitHub]
🚀 クイックスタート
FormatClassifier-NoURLは、ウェブページのテキスト内容に基づいて(URL情報を使用せずに)ウェブコンテンツを24のカテゴリに分類します。このモデルは、140Mのパラメータを持つgte-base-en-v1.5を以下のトレーニングデータでファインチューニングしたものです。
- WebOrganizer/FormatAnnotations-Llama-3.1-8B: Llama-3.1-8Bによってアノテーションされた100万件のドキュメント(第一段階のトレーニング)
- WebOrganizer/FormatAnnotations-Llama-3.1-405B-FP8: Llama-3.1-405B-FP8によってアノテーションされた10万件のドキュメント(第二段階のトレーニング)
全ドメイン分類器
💻 使用例
基本的な使用法
この分類器は、以下の形式の入力を期待します。
{text}
例:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("WebOrganizer/FormatClassifier-NoURL")
model = AutoModelForSequenceClassification.from_pretrained(
"WebOrganizer/FormatClassifier-NoURL",
trust_remote_code=True,
use_memory_efficient_attention=False)
web_page = """How to make a good sandwich? [Click here to read article]"""
inputs = tokenizer([web_page], return_tensors="pt")
outputs = model(**inputs)
probs = outputs.logits.softmax(dim=-1)
print(probs.argmax(dim=-1))
モデルのlogits
をソフトマックス関数で変換することで、以下の24のカテゴリに関する確率分布を得ることができます(ラベルの順序で、モデルの設定にあるid2label
とlabel2id
も参照してください)。
- Academic Writing
- Content Listing
- Creative Writing
- Customer Support
- Comment Section
- FAQ
- Truncated
- Knowledge Article
- Legal Notices
- Listicle
- News Article
- Nonfiction Writing
- About (Org.)
- News (Org.)
- About (Pers.)
- Personal Blog
- Product Page
- Q&A Forum
- Spam / Ads
- Structured Data
- Documentation
- Audio Transcript
- Tutorial
- User Review
カテゴリの完全な定義は、taxonomy configに記載されています。
高度な使用法
効率的な推論を行うために、unpaddingとメモリ効率の良いアテンションを有効にした効率的なgte-base-en-v1.5の実装を使用することを推奨します。これにはxformers
のインストールが必要です(詳細はこちらを参照)。モデルは以下のようにロードします。
AutoModelForSequenceClassification.from_pretrained(
"WebOrganizer/FormatClassifier-NoURL",
trust_remote_code=True,
unpad_inputs=True,
use_memory_efficient_attention=True,
torch_dtype=torch.bfloat16
)
📚 ドキュメント
引用
@article{wettig2025organize,
title={Organize the Web: Constructing Domains Enhances Pre-Training Data Curation},
author={Alexander Wettig and Kyle Lo and Sewon Min and Hannaneh Hajishirzi and Danqi Chen and Luca Soldaini},
journal={arXiv preprint arXiv:2502.10341},
year={2025}
}
属性 |
详情 |
ライブラリ名 |
transformers |
データセット |
WebOrganizer/FormatAnnotations-Llama-3.1-8B、WebOrganizer/FormatAnnotations-Llama-3.1-405B-FP8 |
ベースモデル |
Alibaba-NLP/gte-base-en-v1.5 |