TopicClassifier-NoURLオープンソース分類モデル - URL不要でウェブページ内容を17カテゴリに正確に分類

ホーム

Topicclassifier NoURL

WebOrganizerによって開発

ウェブページのテキスト内容に基づいて（URL情報は使用せず）、ウェブコンテンツを17のカテゴリに分類するモデル

テキスト分類

Transformers

その他#ウェブページテキスト分類 #URL依存なし #17種類のトピック識別

ダウンロード数 41.04k

リリース時間 : 2/10/2025

モデル概要

このモデルはgte - base - en - v1.5をベースに微調整されたもので、ウェブページのテキスト内容のトピック分類に特化しており、17のカテゴリをサポートします。

モデル特徴

URL依存なし

ウェブページのテキスト内容のみに依存して分類し、URL情報には依存しません。

多段階トレーニング

Llama - 3.1 - 8BとLlama - 3.1 - 405B - FP8でアノテーションされたデータを使用して2段階のトレーニングを行います。

効率的な推論

デフィルリングとメモリ効率的なアテンション機構をサポートし、実行効率を向上させます。

モデル能力

ウェブページテキスト分類

多カテゴリの確率分布出力

使用事例

コンテンツ管理

ウェブページコンテンツ分類

ウェブページのコンテンツを自動的に分類し、コンテンツの管理と整理を容易にします。

17のカテゴリの確率分布を出力します。

情報フィルタリング

成人向けコンテンツフィルタリング

成人向けコンテンツを識別してフィルタリングします。

成人向けコンテンツのカテゴリを識別できます。

🚀 WebOrganizer/TopicClassifier-NoURL

TopicClassifier-NoURLは、ウェブページのテキスト内容（URL情報を使用せず）に基づいて、ウェブコンテンツを17のカテゴリに分類します。

[論文] [ウェブサイト] [GitHub]

🚀 クイックスタート

TopicClassifier-NoURLは、ウェブページのテキスト内容に基づいて、ウェブコンテンツを17のカテゴリに分類します。このモデルは、140Mのパラメータを持つgte-base-en-v1.5を、以下のトレーニングデータでファインチューニングしたものです。

WebOrganizer/TopicAnnotations-Llama-3.1-8B: Llama-3.1-8Bによってアノテーションされた100万件のドキュメント（第一段階のトレーニング）
WebOrganizer/TopicAnnotations-Llama-3.1-405B-FP8: Llama-3.1-405B-FP8によってアノテーションされた10万件のドキュメント（第二段階のトレーニング）

全ドメイン分類器

WebOrganizer/FormatClassifier
WebOrganizer/FormatClassifier-NoURL
WebOrganizer/TopicClassifier
WebOrganizer/TopicClassifier-NoURL ← ここにいます！

💻 使用例

基本的な使用法

この分類器は、以下の形式の入力を期待します。

{text}

例:

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("WebOrganizer/TopicClassifier-NoURL")
model = AutoModelForSequenceClassification.from_pretrained(
    "WebOrganizer/TopicClassifier-NoURL",
    trust_remote_code=True,
    use_memory_efficient_attention=False)

web_page = """How to build a computer from scratch? Here are the components you need..."""

inputs = tokenizer([web_page], return_tensors="pt")
outputs = model(**inputs)

probs = outputs.logits.softmax(dim=-1)
print(probs.argmax(dim=-1))
# -> 5 ("Hardware" topic)

モデルのlogitsをソフトマックス関数で変換することで、以下の24のカテゴリに関する確率分布を得ることができます（ラベルの順序で、モデルの設定にあるid2labelとlabel2idも参照）。

Adult
Art & Design
Software Dev.
Crime & Law
Education & Jobs
Hardware
Entertainment
Social Life
Fashion & Beauty
Finance & Business
Food & Dining
Games
Health
History
Home & Hobbies
Industrial
Literature
Politics
Religion
Science & Tech.
Software
Sports & Fitness
Transportation
Travel

カテゴリの完全な定義は、taxonomy configに記載されています。

高度な使用法

効率的な推論のために、unpaddingとメモリ効率的なアテンションを有効にすることで、効率的なgte-base-en-v1.5の実装を使用することをお勧めします。これには、xformersのインストールが必要です（詳細はこちらを参照）。モデルを以下のようにロードします。

AutoModelForSequenceClassification.from_pretrained(
    "WebOrganizer/TopicClassifier-NoURL",
    trust_remote_code=True,
    unpad_inputs=True,
    use_memory_efficient_attention=True,
    torch_dtype=torch.bfloat16
)

📚 ドキュメント

引用

@article{wettig2025organize,
  title={Organize the Web: Constructing Domains Enhances Pre-Training Data Curation},
  author={Alexander Wettig and Kyle Lo and Sewon Min and Hannaneh Hajishirzi and Danqi Chen and Luca Soldaini},
  journal={arXiv preprint arXiv:2502.10341},
  year={2025}
}