🚀 高级自杀倾向分类器模型
本项目旨在提供一个机器学习解决方案,用于检测文本中表明存在自杀倾向的单词序列。通过利用ELECTRA架构并在多样化的数据集上进行微调,我们创建了一个强大的分类模型,能够区分有自杀倾向和无自杀倾向的文本表达。
🚀 快速开始
安装
要使用该模型,你需要安装Transformers库:
pip install transformers
使用模型
你可以使用以下代码片段将该模型用于文本分类:
基础用法
使用管道方法:
from transformers import pipeline
classifier = pipeline("sentiment-analysis", model="sentinetyd/suicidality")
result = classifier("text to classify")
print(result)
高级用法
以编程方式使用分词器和模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("sentinetyd/suicidality")
model = AutoModel.from_pretrained("sentinetyd/suicidality")
✨ 主要特性
- 该模型将输入文本分为两个标签:
LABEL_0
:表示文本无自杀倾向。
LABEL_1
:表示文本有自杀倾向。
- 利用ELECTRA架构,在精心策划的数据集上进行微调。
- 在验证数据集上表现良好,各项指标显示模型能够准确地将文本序列分类为有自杀倾向或无自杀倾向。
📦 安装指南
要使用该模型,你需要安装Transformers库:
pip install transformers
💻 使用示例
基础用法
使用管道方法:
from transformers import pipeline
classifier = pipeline("sentiment-analysis", model="sentinetyd/suicidality")
result = classifier("text to classify")
print(result)
高级用法
以编程方式使用分词器和模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("sentinetyd/suicidality")
model = AutoModel.from_pretrained("sentinetyd/suicidality")
📚 详细文档
训练
该模型使用ELECTRA架构在精心策划的数据集上进行微调。我们的训练过程包括清理和预处理各种文本来源,以创建一个全面的训练集。训练结果显示出良好的性能,指标如下:
性能
模型在验证数据集上的表现如下:
- 准确率:0.939432
- 召回率:0.937164
- 精确率:0.92822
- F1分数:0.932672
这些指标表明,该模型能够准确地将文本序列分类为有自杀倾向或无自杀倾向。
数据来源
我们从多个来源收集数据,以创建一个丰富多样的训练数据集:
- https://www.kaggle.com/datasets/thedevastator/c-ssrs-labeled-suicidality-in-500-anonymized-red
- https://www.kaggle.com/datasets/amangoyl/reddit-dataset-for-multi-task-nlp
- https://www.kaggle.com/datasets/imeshsonu/suicideal-phrases
- https://raw.githubusercontent.com/laxmimerit/twitter-suicidal-intention-dataset/master/twitter-suicidal_data.csv
- https://www.kaggle.com/datasets/mohanedmashaly/suicide-notes
- https://www.kaggle.com/datasets/natalialech/suicidal-ideation-on-twitter
数据在用于训练模型之前,经过了彻底的清理和预处理。
伦理考量
自杀倾向是一个敏感而严肃的话题。在使用此模型时,务必谨慎行事并考虑伦理影响。模型做出的预测应谨慎处理,并用于辅助人类的判断和干预。
模型致谢
我们要感谢Hugging Face模型库中提供的 “gooohjy/suicidal-electra” 模型。你可以在 此链接 找到该模型。我们以此模型为起点进行微调,创建了我们专门的自杀倾向检测模型。
贡献
我们欢迎社区的贡献和反馈,以进一步提高模型的性能、完善数据集,并确保其负责任地部署。
📄 许可证
本项目采用CC0-1.0许可证。
属性 |
详情 |
模型类型 |
文本分类 |
训练数据 |
从多个来源收集的数据,包括https://www.kaggle.com/datasets/thedevastator/c-ssrs-labeled-suicidality-in-500-anonymized-red等,经过清理和预处理 |
⚠️ 重要提示
自杀倾向是一个敏感而严肃的话题。在使用此模型时,务必谨慎行事并考虑伦理影响。模型做出的预测应谨慎处理,并用于辅助人类的判断和干预。