Indobertweet Base Indonesian Sentiment Analysis
模型概述
該模型專門針對印尼語社交媒體文本進行情感分類,可識別負面、正面和中性三種情感傾向,適用於政治、社會等多領域內容分析
模型特點
政治敏感內容識別
特別優化對政治敏感內容的情感判斷能力
多主題覆蓋
訓練數據涵蓋政治、災難、教育等多領域社交媒體討論
超參數優化
使用Optuna進行超參數優化,提升模型性能
模型能力
印尼語文本情感分類
社交媒體內容分析
政治敏感內容檢測
使用案例
社交媒體監測
政治言論情感分析
分析印尼社交媒體中對政治事件的公眾情緒傾向
可識別活動人士相關內容的負面情緒(示例1得分0.6969)
輿情分析
就業話題情緒追蹤
監測就業相關討論的情感變化
準確識別就業困難表達的負面情緒(示例5負面得分0.9852)
🚀 印尼語情感分析模型卡片
本模型用於對印尼語內容進行情感分析,可將情感分為消極、積極和中性三類。它基於多樣化的社交媒體數據集進行訓練,涵蓋政治、災難和教育等多個領域,能為相關領域的情感分析提供有力支持。
🚀 快速開始
此部分暫未提供具體的快速開始內容。
✨ 主要特性
- 針對性微調:該模型是 IndoBertweet-base-uncased 的微調版本,專門用於印尼語情感分析。
- 多類別分類:能夠將情感準確分類為消極、積極和中性三種類型。
- 數據多樣性:在包含推特及其他社交媒體平臺反應的多樣化數據集上進行訓練,覆蓋政治、災難、教育等多個主題。
- 參數優化:使用 Optuna 進行超參數調優,通過準確性、F1 分數、精確率和召回率等指標進行評估。
💻 使用示例
基礎用法
以下是一些示例文本及其情感分類結果:
{
"widget": [
{
"text": "Gapapa kalian gak tahu band Indo ini. Tapi jangan becanda. Karena mereka berani menyanyikan dengan lantang bagaimana aktivis ditikam, diracun, dikursilitrikkan, dan dibunuh di udara. Orang-orang yang berkorban nyawa supaya kalian menikmati hari ini sambil ngetwit tanpa khawatir",
"example_title": "Example 1",
"output": [
{
"label": "Negative",
"score": 0.2964
},
{
"label": "Neutral",
"score": 0.067
},
{
"label": "Positive",
"score": 0.6969
}
]
},
{
"text": "Selama ada kelompok yg ingin jd mesias, selama itu jg govt punya justifikasi but bikin banyak aturan = celah korup/power abuse. Keadilan adalah deregulasi.",
"example_title": "Example 2",
"output": [
{
"label": "Negative",
"score": 0.971
},
{
"label": "Neutral",
"score": 0.0165
},
{
"label": "Positive",
"score": 0.126
}
]
},
{
"text": "saat pendukungmu oke😹 gas ✌🏽oke😹 gas ✌🏽tapi kamu malah ketawa 🤣 itu ga respek 😠banget wok jangan lupa makan siang 😁geratisnya wok😋😹✌🏽",
"example_title": "Example 3",
"output": [
{
"label": "Negative",
"score": 0.6457
},
{
"label": "Neutral",
"score": 0.048
},
{
"label": "Positive",
"score": 0.3063
}
]
},
{
"text": "Infoin loker wfh/freelance untuk mahasiswa dong, pengin bangget buat tambahan uang jajan di kos",
"example_title": "Example 4",
"output": [
{
"label": "Negative",
"score": 0.0544
},
{
"label": "Neutral",
"score": 0.6973
},
{
"label": "Positive",
"score": 0.2482
}
]
},
{
"text": "Cari kerja sekarang tuh susah. Anaknya Presiden aja mesti dicariin kerjaan sama bapaknya",
"example_title": "Example 5",
"output": [
{
"label": "Negative",
"score": 0.9852
},
{
"label": "Neutral",
"score": 0.0116
},
{
"label": "Positive",
"score": 0.0032
}
]
},
{
"text": "Komisi Penyiaran Indonesia (KPI) meminta agar tayangan televisi menampilkan citra positif Polri secara edukatif dan akurat. Hal ini disampaikan ketua KPI Pusat Ubaidillah dalam sebuah diskusi panel",
"example_title": "Example 6",
"output": [
{
"label": "Neutral",
"score": 0.9932
},
{
"label": "Positive",
"score": 0.0063
},
{
"label": "Negative",
"score": 0.0005
}
]
},
{
"text": "Jgnkan tweet becandaan.. kadang tweet normal yg gue baca 'oh menarik' trs gue like/retweet, trs gue tinggal tidur, BESOKNYA ITU TWEET DIRUJAK. Gue jadi mikir, ini emang gue yang merasa semua hal menarik dan semua org bisa aja bener.. ATAU.. SEMUA ORANG jadi sensitif",
"example_title": "Example 7",
"output": [
{
"label": "Negative",
"score": 0.5531
},
{
"label": "Neutral",
"score": 0.4426
},
{
"label": "Positive",
"score": 0.0043
}
]
}
],
"library_name": "transformers",
"license": "mit",
"language": [
"id"
]
}
🔧 技術細節
模型訓練
- 超參數優化:訓練過程使用 Optuna 進行超參數優化。
- 訓練設置:模型最多訓練 10 個 epoch,批次大小為 16,使用優化後的學習率和權重衰減。
- 評估策略:每 100 步進行一次評估,根據準確性保存最佳模型。
- 早停機制:應用早停策略,耐心值為 3,以防止過擬合。
評估結果
輪次 | 訓練損失 | 驗證損失 | 準確率 | F1 分數 | 精確率 | 召回率 |
---|---|---|---|---|---|---|
100 | 1.052800 | 0.995017 | 0.482368 | 0.348356 | 0.580544 | 0.482368 |
200 | 0.893700 | 0.807756 | 0.730479 | 0.703134 | 0.756189 | 0.730479 |
300 | 0.583400 | 0.476157 | 0.850126 | 0.847161 | 0.849467 | 0.850126 |
400 | 0.413600 | 0.385942 | 0.867758 | 0.867614 | 0.870417 | 0.867758 |
500 | 0.345700 | 0.362191 | 0.885390 | 0.883918 | 0.886880 | 0.885390 |
600 | 0.245400 | 0.330090 | 0.897985 | 0.897466 | 0.897541 | 0.897985 |
700 | 0.485000 | 0.308807 | 0.899244 | 0.898736 | 0.898761 | 0.899244 |
800 | 0.363700 | 0.328786 | 0.896725 | 0.895167 | 0.898695 | 0.896725 |
900 | 0.369800 | 0.329429 | 0.892947 | 0.893138 | 0.898281 | 0.892947 |
1000 | 0.273300 | 0.305412 | 0.910579 | 0.910355 | 0.910519 | 0.910579 |
1100 | 0.272800 | 0.388976 | 0.891688 | 0.893113 | 0.896606 | 0.891688 |
1200 | 0.259900 | 0.305771 | 0.913098 | 0.913123 | 0.913669 | 0.913098 |
1300 | 0.293500 | 0.317654 | 0.908060 | 0.908654 | 0.909939 | 0.908060 |
1400 | 0.255200 | 0.331161 | 0.915617 | 0.915708 | 0.916149 | 0.915617 |
1500 | 0.139800 | 0.352545 | 0.909320 | 0.909768 | 0.911014 | 0.909320 |
1600 | 0.194400 | 0.372482 | 0.904282 | 0.904296 | 0.906285 | 0.904282 |
1700 | 0.134200 | 0.340576 | 0.906801 | 0.907110 | 0.907780 | 0.906801 |
📄 許可證
本模型使用 MIT 許可證。
📖 引用信息
@misc{Ardiyanto_Mikhael_2024,
author = {Mikhael Ardiyanto},
title = {Aardiiiiy/indobertweet-base-Indonesian-sentiment-analysis},
year = {2024},
URL = {https://huggingface.co/Aardiiiiy/indobertweet-base-Indonesian-sentiment-analysis},
publisher = {Hugging Face}
}
⚠️ 重要提示
- 數據偏差:該模型基於特定數據進行訓練,這可能導致情感分類過程中出現偏差。模型可能繼承訓練數據中的社會文化偏差,對於數據中未涵蓋的最新事件,其準確性可能較低。
- 情感複雜性:將情感分為三類的侷限性可能無法完全捕捉情感的複雜性,特別是在特定語境下。因此,在使用此模型時,務必考慮並處理這些偏差。
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型,準確率91.3%
文本分類 英語
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基於XLM-RoBERTa的多語言檢測模型,支持20種語言的文本分類
文本分類
Transformers 支持多種語言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
該模型通過動態生成數據集來改進在線仇恨檢測,專注於從最差案例中學習以提高檢測效果。
文本分類
Transformers 英語

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基於bert-base-multilingual-uncased微調的多語言情感分析模型,支持6種語言的商品評論情感分析
文本分類 支持多種語言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基於DistilRoBERTa-base微調的英文文本情感分類模型,可預測埃克曼六種基本情緒及中性類別。
文本分類
Transformers 英語

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基於RoBERTuito的西班牙語推文情感分析模型,支持POS(積極)/NEG(消極)/NEU(中性)三類情感分類
文本分類 西班牙語
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基於金融通訊文本預訓練的BERT模型,專注於金融自然語言處理領域。finbert-tone是其微調版本,用於金融情感分析任務。
文本分類
Transformers 英語

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基於RoBERTa-base的多標籤情感分類模型,在go_emotions數據集上訓練,支持28種情感標籤識別。
文本分類
Transformers 英語

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一個基於XLM-T模型微調的多語言情感分析模型,支持19種語言,專門針對社交媒體文本的情感預測。
文本分類
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基於MultiNLI、Fever-NLI和ANLI數據集訓練的DeBERTa-v3模型,擅長零樣本分類和自然語言推理任務
文本分類
Transformers 英語

D
MoritzLaurer
613.93k
204
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98