Multilingual-sarcasm-detector open-source model - Free detection of sarcasm in multilingual news titles

Multilingual Sarcasm Detector

Developed by helinivan

A text classification model fine-tuned based on bert-base-multilingual-uncased for detecting sarcasm in multilingual news headlines

Text Classification

Transformers

Other#Multilingual sarcasm detection #News headline analysis #BERT fine-tuning

Downloads 50

Release Time : 11/4/2022

Model Overview

This model can identify sarcastic content in news headlines in English, Dutch, and Italian, suitable for multilingual text analysis scenarios

Model Features

Multilingual support

Capable of handling sarcasm detection in three languages: English, Dutch, and Italian

High accuracy

Achieves 88.3% accuracy on multilingual test sets

Fine-tuned pre-trained model

Optimized training based on bert-base-multilingual-uncased

Model Capabilities

Text classification

Sarcasm detection

Multilingual text analysis

Use Cases

News media analysis

Sarcasm detection in news headlines

Automatically identify whether news headlines contain sarcastic content

Helps media platforms filter or flag sarcastic content

Social media monitoring

Social media content analysis

Analyze sarcastic remarks on social media

Assists in public opinion analysis and sentiment analysis

🚀 Multilingual Sarcasm Detector

The Multilingual Sarcasm Detector is a text classification model designed to detect sarcasm in news article titles. It is fine - tuned on [bert - base - multilingual - uncased](https://huggingface.co/bert - base - multilingual - uncased). The training data includes ready - made datasets from Kaggle and scraped data from various English, Dutch, and Italian newspapers.

Labels: 0 -> Not Sarcastic; 1 -> Sarcastic

✨ Features

Source Data

Datasets:
- English language data: [Kaggle: News Headlines Dataset For Sarcasm Detection](https://www.kaggle.com/datasets/rmisra/news - headlines - dataset - for - sarcasm - detection).
- Dutch non - sarcastic data: [Kaggle: Dutch News Articles](https://www.kaggle.com/datasets/maxscheijen/dutch - news - articles)
Scraped data:
- Dutch sarcastic news from De Speld
- Italian non - sarcastic news from Il Giornale
- Italian sarcastic news from Lercio

Training Dataset

helinivan/sarcasm_headlines_multilingual

Codebase

Git Repo: [Official repository](https://github.com/helinivan/multilingual - sarcasm - detector)

💻 Usage Examples

Basic Usage

from transformers import AutoModelForSequenceClassification
from transformers import AutoTokenizer
import string

def preprocess_data(text: str) -> str:
   return text.lower().translate(str.maketrans("", "", string.punctuation)).strip()

MODEL_PATH = "helinivan/multilingual-sarcasm-detector"

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForSequenceClassification.from_pretrained(MODEL_PATH)

text = "CIA Realizes It's Been Using Black Highlighters All These Years."
tokenized_text = tokenizer([preprocess_data(text)], padding=True, truncation=True, max_length=256, return_tensors="pt")
output = model(**tokenized_text)
probs = output.logits.softmax(dim=-1).tolist()[0]
confidence = max(probs)
prediction = probs.index(confidence)
results = {"is_sarcastic": prediction, "confidence": confidence}

The output of the above code is:

{'is_sarcastic': 1, 'confidence': 0.9374828934669495}

📚 Documentation

Performance

Property	Details
Model Type	Multilingual Sarcasm Detector
Training Data	Ready - made datasets from Kaggle and scraped data from English, Dutch, and Italian newspapers

Performance Table

Model Name	F1	Precision	Recall	Accuracy
[helinivan/english - sarcasm - detector](https://huggingface.co/helinivan/english - sarcasm - detector)	92.38	92.75	92.38	92.42
[helinivan/italian - sarcasm - detector](https://huggingface.co/helinivan/italian - sarcasm - detector)	88.26	87.66	89.66	88.69
[helinivan/multilingual - sarcasm - detector](https://huggingface.co/helinivan/multilingual - sarcasm - detector)	87.23	88.65	86.33	88.30
[helinivan/dutch - sarcasm - detector](https://huggingface.co/helinivan/dutch - sarcasm - detector)	83.02	84.27	82.01	86.81

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご