F

Formatclassifier NoURL

WebOrganizerによって開発
ウェブページのテキスト内容(URL情報を使用せず)に基づいてネットワークコンテンツを24のカテゴリに分類するモデル
ダウンロード数 730
リリース時間 : 2/10/2025

モデル概要

このモデルはgte-base-en-v1.5をベースにファインチューニングされ、ウェブページのテキスト内容をフォーマット分類するために特別に設計されており、24種類の異なるフォーマットタイプの識別をサポートします。

モデル特徴

URL非依存分類
テキスト内容のみに基づいて分類し、URL情報に依存しません
24種類フォーマット分類
学術論文からユーザーレビューまで、24種類の異なるウェブフォーマットの識別をサポート
2段階トレーニング
Llama-3.1-8BとLlama-3.1-405B-FP8で注釈付けされたデータを使用した2段階ファインチューニング

モデル能力

ウェブコンテンツ分類
テキストフォーマット識別
マルチカテゴリ確率予測

使用事例

コンテンツ管理
ウェブコンテンツアーカイブ
大量のウェブコンテンツを自動分類・整理
コンテンツ管理効率の向上
情報検索
検索結果フィルタリング
コンテンツフォーマットに基づいて検索結果をフィルタリング
検索関連性の向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase