🚀 高級自殺傾向分類器模型
本項目旨在提供一個機器學習解決方案,用於檢測文本中表明存在自殺傾向的單詞序列。通過利用ELECTRA架構並在多樣化的數據集上進行微調,我們創建了一個強大的分類模型,能夠區分有自殺傾向和無自殺傾向的文本表達。
🚀 快速開始
安裝
要使用該模型,你需要安裝Transformers庫:
pip install transformers
使用模型
你可以使用以下代碼片段將該模型用於文本分類:
基礎用法
使用管道方法:
from transformers import pipeline
classifier = pipeline("sentiment-analysis", model="sentinetyd/suicidality")
result = classifier("text to classify")
print(result)
高級用法
以編程方式使用分詞器和模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("sentinetyd/suicidality")
model = AutoModel.from_pretrained("sentinetyd/suicidality")
✨ 主要特性
- 該模型將輸入文本分為兩個標籤:
LABEL_0
:表示文本無自殺傾向。
LABEL_1
:表示文本有自殺傾向。
- 利用ELECTRA架構,在精心策劃的數據集上進行微調。
- 在驗證數據集上表現良好,各項指標顯示模型能夠準確地將文本序列分類為有自殺傾向或無自殺傾向。
📦 安裝指南
要使用該模型,你需要安裝Transformers庫:
pip install transformers
💻 使用示例
基礎用法
使用管道方法:
from transformers import pipeline
classifier = pipeline("sentiment-analysis", model="sentinetyd/suicidality")
result = classifier("text to classify")
print(result)
高級用法
以編程方式使用分詞器和模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("sentinetyd/suicidality")
model = AutoModel.from_pretrained("sentinetyd/suicidality")
📚 詳細文檔
訓練
該模型使用ELECTRA架構在精心策劃的數據集上進行微調。我們的訓練過程包括清理和預處理各種文本來源,以創建一個全面的訓練集。訓練結果顯示出良好的性能,指標如下:
性能
模型在驗證數據集上的表現如下:
- 準確率:0.939432
- 召回率:0.937164
- 精確率:0.92822
- F1分數:0.932672
這些指標表明,該模型能夠準確地將文本序列分類為有自殺傾向或無自殺傾向。
數據來源
我們從多個來源收集數據,以創建一個豐富多樣的訓練數據集:
- https://www.kaggle.com/datasets/thedevastator/c-ssrs-labeled-suicidality-in-500-anonymized-red
- https://www.kaggle.com/datasets/amangoyl/reddit-dataset-for-multi-task-nlp
- https://www.kaggle.com/datasets/imeshsonu/suicideal-phrases
- https://raw.githubusercontent.com/laxmimerit/twitter-suicidal-intention-dataset/master/twitter-suicidal_data.csv
- https://www.kaggle.com/datasets/mohanedmashaly/suicide-notes
- https://www.kaggle.com/datasets/natalialech/suicidal-ideation-on-twitter
數據在用於訓練模型之前,經過了徹底的清理和預處理。
倫理考量
自殺傾向是一個敏感而嚴肅的話題。在使用此模型時,務必謹慎行事並考慮倫理影響。模型做出的預測應謹慎處理,並用於輔助人類的判斷和干預。
模型致謝
我們要感謝Hugging Face模型庫中提供的 “gooohjy/suicidal-electra” 模型。你可以在 此鏈接 找到該模型。我們以此模型為起點進行微調,創建了我們專門的自殺傾向檢測模型。
貢獻
我們歡迎社區的貢獻和反饋,以進一步提高模型的性能、完善數據集,並確保其負責任地部署。
📄 許可證
本項目採用CC0-1.0許可證。
屬性 |
詳情 |
模型類型 |
文本分類 |
訓練數據 |
從多個來源收集的數據,包括https://www.kaggle.com/datasets/thedevastator/c-ssrs-labeled-suicidality-in-500-anonymized-red等,經過清理和預處理 |
⚠️ 重要提示
自殺傾向是一個敏感而嚴肅的話題。在使用此模型時,務必謹慎行事並考慮倫理影響。模型做出的預測應謹慎處理,並用於輔助人類的判斷和干預。