autonlp-Gibberish-Detector-492513457オープンソースモデル - 英語の無意味なテキストとスパム情報を精度よく識別する

ホーム

Autonlp Gibberish Detector 492513457

madhurjindalによって開発

DistilBERTベースの無意味テキスト検出モデルで、英語の無意味テキスト、スパム、支離滅裂な入力を97.36%の精度で識別します。

テキスト分類

Transformers

英語オープンソースライセンス:MIT #高精度テキストフィルタリング #多段階無意味検出 #チャットボット最適化

ダウンロード数 162.38k

リリース時間 : 3/2/2022

モデル概要

このモデルは英語の無意味テキスト検出に特化しており、ノイズ、ワードサラダ、軽度の無意味テキスト、クリーンテキストを区別できます。コンテンツ審査、チャットボット入力検証、テキスト品質保証などのシナリオに適しています。

モデル特徴

高精度

無意味テキスト検出タスクで97.36%の精度を達成。

高速推論

最適化されたDistilBERTアーキテクチャにより、リアルタイムアプリケーションに適しています。

多様な検出

ノイズ、ワードサラダ、軽度の無意味テキスト、クリーンテキストを区別可能。

環境配慮設計

低炭素排出（5.53グラムCO2）。

モデル能力

テキスト分類

無意味テキスト検出

スパムフィルタリング

コンテンツ審査

使用事例

コンテンツ審査

ユーザー生成コンテンツフィルタリング

フォーラムやソーシャルメディアの無意味またはスパムコンテンツを自動検出。

プラットフォームのコンテンツ品質向上と手動審査作業の削減。

チャットボット

入力検証

チャットボットが受信する無意味な入力をフィルタリング。

チャットボットの応答品質とユーザー体験の向上。

🚀 ギブリッシュ検出器 - 高度なテキスト分類モデル

DistilBERTを使用した最先端のギブリッシュ検出モデルです。無意味なテキスト、スパム、不条理な入力を97.36%の精度で検出します。チャットボット、コンテンツモデレーション、テキスト検証に最適です。

🚀 クイックスタート

from transformers import pipeline

# ギブリッシュ検出器を初期化
detector = pipeline("text-classification", model="madhurjindal/autonlp-Gibberish-Detector-492513457")

# テキスト内のギブリッシュを検出
result = detector("I love Machine Learning!")
print(result)
# 出力: [{'label': 'clean', 'score': 0.99}]

✨ 主な機能

🎯 97.36%の精度：ギブリッシュ検出における業界トップレベルの性能
⚡ 高速推論：リアルタイムアプリケーション向けに最適化されたDistilBERTアーキテクチャ
🏷️ マルチクラス検出：ノイズ、ワードサラダ、軽度のギブリッシュ、クリーンなテキストを区別
🔧 簡単な統合：transformersパイプラインを使用したシンプルなAPI
🌐 本番環境対応：多様な実世界のデータセットでテスト済み
💚 環境にやさしい：低炭素フットプリント（CO2排出量5.53g）

📚 ドキュメント

問題の説明

チャットボットや下流タスクなど、さまざまなアプリケーションでは、ユーザー入力を処理および理解する能力が重要です。しかし、このようなシステムで一般的に直面する問題は、ギブリッシュや無意味な入力の存在です。この問題に対処するため、英語のギブリッシュ検出器の開発に焦点を当てたプロジェクトを提案します。このプロジェクトの主な目標は、ユーザー入力をギブリッシュまたは非ギブリッシュに分類し、システムとのより正確かつ意味のある対話を可能にすることです。また、チャットボットやユーザー入力に依存する他のシステムの全体的なパフォーマンスとユーザー体験を向上させることも目指しています。

ギブリッシュとは何か？

ギブリッシュとは、無意味または意味のない言語やテキストで、一貫性や明確な意味を欠いています。ランダムな単語、無意味なフレーズ、文法エラー、または構文上の異常の組み合わせによって特徴付けられ、コミュニケーションが明確かつ理解可能なメッセージを伝えることができません。ギブリッシュの強度は様々で、意味のある単語がない単純なノイズから、表面的には正しく見えるが、よく調べると一貫性や論理的な構造を欠く文まであります。ギブリッシュの検出と識別は、自然言語処理、チャットボットシステム、スパムフィルタリング、および言語ベースのセキュリティ対策など、さまざまなコンテキストで、効果的なコミュニケーションとユーザー入力の正確な処理を確保するために不可欠です。

ラベルの説明

そこで、この問題を4つのカテゴリに分けます。

ノイズ：入力フレーズの構成要素（単語）自体が独立して意味を持たない、レベル0のギブリッシュ。 例：dfdfer fgerfow2e0d qsqskdsd djksdnfkff swq.
ワードサラダ：単語自体は意味を持つが、全体として（フレーズとして）意味がない、レベル1のギブリッシュ。 例：22 madhur old punjab pickle chennai
軽度のギブリッシュ：文の一部に文法エラー、単語の意味エラー、または構文上の異常があり、文が一貫した意味を欠く、レベル2のギブリッシュ。 例：Madhur study in a teacher
クリーン：このカテゴリは、それ自体で完全かつ意味のある文を形成する単語のセットを表します。 例：I love this website

ヒント：ギブリッシュの検出を容易にするために、必要な検出レベルに基づいてラベルを組み合わせることができます。たとえば、レベル1のギブリッシュを検出する必要がある場合は、ノイズとワードサラダを「ギブリッシュ」としてグループ化し、軽度のギブリッシュとクリーンをそれぞれ「非ギブリッシュ」として考えることができます。このアプローチにより、特定の要件に基づいて異なるレベルのギブリッシュを柔軟に検出および分類できます。

AutoNLPを使用したモデルのトレーニング

問題の種類：マルチクラス分類
モデルID：492513457
CO2排出量（グラム）：5.527544460835904

検証指標

損失：0.07609463483095169
精度：0.9735624586913417
マクロF1：0.9736173135739408
マイクロF1：0.9735624586913417
加重F1：0.9736173135739408
マクロ精度：0.9737771415197378
マイクロ精度：0.9735624586913417
加重精度：0.9737771415197378
マクロ再現率：0.9735624586913417
マイクロ再現率：0.9735624586913417
加重再現率：0.9735624586913417

💻 使用例

基本的な使用法

from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch

# モデルとトークナイザーをロード
model = AutoModelForSequenceClassification.from_pretrained("madhurjindal/autonlp-Gibberish-Detector-492513457")
tokenizer = AutoTokenizer.from_pretrained("madhurjindal/autonlp-Gibberish-Detector-492513457")

# テキストを分類
def detect_gibberish(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
    with torch.no_grad():
        outputs = model(**inputs)
    
    probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1)
    predicted_label_id = probabilities.argmax().item()
    
    return model.config.id2label[predicted_label_id]

# 例
print(detect_gibberish("Hello world!"))  # 出力: clean
print(detect_gibberish("asdkfj asdf"))   # 出力: noise

APIの使用

curl -X POST -H "Authorization: Bearer YOUR_API_KEY" \
     -H "Content-Type: application/json" \
     -d '{"inputs": "Is this text gibberish?"}' \
     https://api-inference.huggingface.co/models/madhurjindal/autonlp-Gibberish-Detector-492513457

バッチ処理

texts = [
    "Perfect sentence structure",
    "random kdjs dskjf",
    "apple banana car house"
]

results = detector(texts)
for text, result in zip(texts, results):
    print(f"'{text}' -> {result['label']} ({result['score']:.2f})")

使用例

チャットボットの入力検証

チャットボットが無意味なクエリを処理しないようにします。

def validate_user_input(text):
    result = detector(text)[0]
    if result['label'] in ['noise', 'word_salad']:
        return "Please provide a valid question."
    return process_query(text)

コンテンツモデレーション

ユーザー生成コンテンツからスパムやギブリッシュをフィルタリングします。

def moderate_content(post):
    classification = detector(post)[0]
    if classification['label'] != 'clean':
        return f"Post rejected: {classification['label']} detected"
    return "Post approved"

データ品質保証

低品質のテキストを削除してデータセットをクリーニングします。

def filter_quality_text(texts):
    quality_texts = []
    for text in texts:
        if detector(text)[0]['label'] == 'clean':
            quality_texts.append(text)
    return quality_texts

🔧 技術詳細

このギブリッシュ検出器は、さまざまなギブリッシュタイプのデータセットで微調整されたDistilBERTモデルを使用しています。モデルは、以下のパターンを識別するように学習します。

文字レベルのパターン：ランダムな文字シーケンスの検出
単語レベルの一貫性：意味のある単語の組み合わせの識別
文レベルの構造：文法パターンの認識
意味的な一貫性：論理的な意味の流れの理解

📈 他のソリューションとの比較

機能	当モデル	従来の正規表現	ルールベースのシステム
精度	97.36%	~60 - 70%	~70 - 80%
文脈理解	✅	❌	限られた
マルチレベル検出	✅	❌	限られた
速度	高速	非常に高速	中程度
メンテナンス	低	高	高

🌟 このモデルを選ぶ理由

最高の精度：従来のルールベースのアプローチを上回る
文脈理解：トランスフォーマーアーキテクチャを使用した深い理解
簡単な統合：標準のtransformersライブラリで動作
実績あり：複数の組織で本番環境で使用されている
積極的なメンテナンス：定期的な更新とコミュニティのサポート

🤝 コントリビューション

コントリビューションを歓迎します！以下のことを自由に行ってください。

問題の報告
改善提案
あなたの使用例の共有
ドキュメントへの貢献

📚 引用

このモデルを研究で使用する場合は、以下を引用してください。

@misc{gibberish-detector-2021,
  author = {Madhur Jindal},
  title = {Gibberish Detector: High-Accuracy Text Classification Model},
  year = {2021},
  publisher = {Hugging Face},
  url = {https://huggingface.co/madhurjindal/autonlp-Gibberish-Detector-492513457}
}