FormatClassifier-NoURLオープンソース分類モデル - 無料でWebページのテキストを精度よく24カテゴリに分類

ホーム

Formatclassifier NoURL

WebOrganizerによって開発

ウェブページのテキスト内容（URL情報を使用せず）に基づいてネットワークコンテンツを24のカテゴリに分類するモデル

テキスト分類

Transformers

その他#ウェブテキスト分類 #URL非依存 #24種類のフォーマット識別

ダウンロード数 730

リリース時間 : 2/10/2025

モデル概要

このモデルはgte-base-en-v1.5をベースにファインチューニングされ、ウェブページのテキスト内容をフォーマット分類するために特別に設計されており、24種類の異なるフォーマットタイプの識別をサポートします。

モデル特徴

URL非依存分類

テキスト内容のみに基づいて分類し、URL情報に依存しません

24種類フォーマット分類

学術論文からユーザーレビューまで、24種類の異なるウェブフォーマットの識別をサポート

2段階トレーニング

Llama-3.1-8BとLlama-3.1-405B-FP8で注釈付けされたデータを使用した2段階ファインチューニング

モデル能力

ウェブコンテンツ分類

テキストフォーマット識別

マルチカテゴリ確率予測

使用事例

コンテンツ管理

ウェブコンテンツアーカイブ

大量のウェブコンテンツを自動分類・整理

コンテンツ管理効率の向上

情報検索

検索結果フィルタリング

コンテンツフォーマットに基づいて検索結果をフィルタリング

検索関連性の向上

🚀 WebOrganizer/FormatClassifier-NoURL

FormatClassifier-NoURLは、ウェブページのテキスト内容に基づいて（URL情報を使用せずに）ウェブコンテンツを24のカテゴリに分類します。

[論文] [ウェブサイト] [GitHub]

🚀 クイックスタート

FormatClassifier-NoURLは、ウェブページのテキスト内容に基づいて（URL情報を使用せずに）ウェブコンテンツを24のカテゴリに分類します。このモデルは、140Mのパラメータを持つgte-base-en-v1.5を以下のトレーニングデータでファインチューニングしたものです。

WebOrganizer/FormatAnnotations-Llama-3.1-8B: Llama-3.1-8Bによってアノテーションされた100万件のドキュメント（第一段階のトレーニング）
WebOrganizer/FormatAnnotations-Llama-3.1-405B-FP8: Llama-3.1-405B-FP8によってアノテーションされた10万件のドキュメント（第二段階のトレーニング）

全ドメイン分類器

WebOrganizer/FormatClassifier
WebOrganizer/FormatClassifier-NoURL ← ここにいます！
WebOrganizer/TopicClassifier
WebOrganizer/TopicClassifier-NoURL

💻 使用例

基本的な使用法

この分類器は、以下の形式の入力を期待します。

{text}

例:

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("WebOrganizer/FormatClassifier-NoURL")
model = AutoModelForSequenceClassification.from_pretrained(
    "WebOrganizer/FormatClassifier-NoURL",
    trust_remote_code=True,
    use_memory_efficient_attention=False)

web_page = """How to make a good sandwich? [Click here to read article]"""

inputs = tokenizer([web_page], return_tensors="pt")
outputs = model(**inputs)

probs = outputs.logits.softmax(dim=-1)
print(probs.argmax(dim=-1))
# -> 6 ("Truncated" format, which covers incomplete content)

モデルのlogitsをソフトマックス関数で変換することで、以下の24のカテゴリに関する確率分布を得ることができます（ラベルの順序で、モデルの設定にあるid2labelとlabel2idも参照してください）。

Academic Writing
Content Listing
Creative Writing
Customer Support
Comment Section
FAQ
Truncated
Knowledge Article
Legal Notices
Listicle
News Article
Nonfiction Writing
About (Org.)
News (Org.)
About (Pers.)
Personal Blog
Product Page
Q&A Forum
Spam / Ads
Structured Data
Documentation
Audio Transcript
Tutorial
User Review

カテゴリの完全な定義は、taxonomy configに記載されています。

高度な使用法

効率的な推論を行うために、unpaddingとメモリ効率の良いアテンションを有効にした効率的なgte-base-en-v1.5の実装を使用することを推奨します。これにはxformersのインストールが必要です（詳細はこちらを参照）。モデルは以下のようにロードします。

AutoModelForSequenceClassification.from_pretrained(
    "WebOrganizer/FormatClassifier-NoURL",
    trust_remote_code=True,
    unpad_inputs=True,
    use_memory_efficient_attention=True,
    torch_dtype=torch.bfloat16
)

📚 ドキュメント

引用

@article{wettig2025organize,
  title={Organize the Web: Constructing Domains Enhances Pre-Training Data Curation},
  author={Alexander Wettig and Kyle Lo and Sewon Min and Hannaneh Hajishirzi and Danqi Chen and Luca Soldaini},
  journal={arXiv preprint arXiv:2502.10341},
  year={2025}
}

属性	详情
ライブラリ名	transformers
データセット	WebOrganizer/FormatAnnotations-Llama-3.1-8B、WebOrganizer/FormatAnnotations-Llama-3.1-405B-FP8
ベースモデル	Alibaba-NLP/gte-base-en-v1.5