🚀 sadickam/sdgBERT
sgdBERT(曾用名 "sdg-classification-bert")是一个用于根据联合国可持续发展目标(SDG)对文本进行分类的NLP模型。它能助力用户快速准确地将文本与联合国的可持续发展目标进行关联,为可持续发展相关的研究和实践提供有力支持。
来源:https://www.un.org/development/desa/disabilities/about-us/sustainable-development-goals-sdgs-and-disability.html
🚀 快速开始
使用以下代码开始使用该模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("sadickam/sdg-classification-bert")
model = AutoModelForSequenceClassification.from_pretrained("sadickam/sdg-classification-bert")
✨ 主要特性
- 基于预训练的bert-base-uncased模型进行微调,具有较好的文本分类能力。
- 训练数据来自公开的OSDG Community Dataset (OSDG-CD) Version 2023.10,具有广泛的适用性。
- 作为迪肯大学学术研究的一部分,旨在打造一个任何人都能使用的基于Transformer的SDG文本分类模型。
- 仅支持前16个联合国可持续发展目标。
📦 安装指南
此模型为微调后的模型,无需进一步训练,可直接使用上述代码进行调用。
📚 详细文档
模型详情
模型描述
该文本分类模型是通过微调bert-base-uncased预训练模型开发的。微调模型的训练数据来自公开的OSDG Community Dataset (OSDG-CD) Version 2023.10,链接为https://zenodo.org/records/8397907。此模型是迪肯大学学术研究的一部分,目标是打造一个基于Transformer的SDG文本分类模型,供任何人使用。仅支持前16个联合国可持续发展目标。主要模型细节如下:
属性 |
详情 |
模型类型 |
文本分类 |
语言 (NLP) |
英语 |
许可证 |
mit |
微调自模型 [可选] |
bert-base-uncased |
模型来源
- 仓库:https://huggingface.co/sadickam/sdg-classification-bert
- 演示:选项1(复制/粘贴文本和csv):https://sadickam-sdg-text-classifier.hf.space/;选项2(PDF文档):https://sadickam-document-sdg-app-cpu.hf.space
直接使用
此模型无需进一步微调或集成到更大的生态系统/应用中,可直接使用。
训练数据
训练数据包含来自广泛行业和学术研究领域的文本,因此该微调模型并非针对特定行业。
查看训练数据:https://zenodo.org/records/8397907
训练超参数
- 训练轮数(Num_epoch) = 3
- 学习率(Learning rate) = 5e-5
- 批次大小(Batch size) = 16
评估
评估指标
- 准确率(Accuracy) = 0.90
- 马修斯相关系数(Matthews correlation) = 0.89
📄 许可证
该模型使用mit许可证。
🔧 技术细节
此模型是通过对bert-base-uncased预训练模型进行微调得到的,训练数据来自公开的OSDG Community Dataset (OSDG-CD) Version 2023.10。在微调过程中,使用了特定的超参数,如训练轮数为3,学习率为5e-5,批次大小为16。通过这些设置,模型在评估指标上取得了较好的结果,准确率达到0.90,马修斯相关系数达到0.89。
📚 引用信息
相关引用信息将在论文审核通过后提供。
📞 模型卡片联系方式
s.sadick@deakin.edu.au