🚀 sadickam/sdgBERT
sgdBERT(曾用名 "sdg-classification-bert")是一個用於根據聯合國可持續發展目標(SDG)對文本進行分類的NLP模型。它能助力用戶快速準確地將文本與聯合國的可持續發展目標進行關聯,為可持續發展相關的研究和實踐提供有力支持。
來源:https://www.un.org/development/desa/disabilities/about-us/sustainable-development-goals-sdgs-and-disability.html
🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("sadickam/sdg-classification-bert")
model = AutoModelForSequenceClassification.from_pretrained("sadickam/sdg-classification-bert")
✨ 主要特性
- 基於預訓練的bert-base-uncased模型進行微調,具有較好的文本分類能力。
- 訓練數據來自公開的OSDG Community Dataset (OSDG-CD) Version 2023.10,具有廣泛的適用性。
- 作為迪肯大學學術研究的一部分,旨在打造一個任何人都能使用的基於Transformer的SDG文本分類模型。
- 僅支持前16個聯合國可持續發展目標。
📦 安裝指南
此模型為微調後的模型,無需進一步訓練,可直接使用上述代碼進行調用。
📚 詳細文檔
模型詳情
模型描述
該文本分類模型是通過微調bert-base-uncased預訓練模型開發的。微調模型的訓練數據來自公開的OSDG Community Dataset (OSDG-CD) Version 2023.10,鏈接為https://zenodo.org/records/8397907。此模型是迪肯大學學術研究的一部分,目標是打造一個基於Transformer的SDG文本分類模型,供任何人使用。僅支持前16個聯合國可持續發展目標。主要模型細節如下:
屬性 |
詳情 |
模型類型 |
文本分類 |
語言 (NLP) |
英語 |
許可證 |
mit |
微調自模型 [可選] |
bert-base-uncased |
模型來源
- 倉庫:https://huggingface.co/sadickam/sdg-classification-bert
- 演示:選項1(複製/粘貼文本和csv):https://sadickam-sdg-text-classifier.hf.space/;選項2(PDF文檔):https://sadickam-document-sdg-app-cpu.hf.space
直接使用
此模型無需進一步微調或集成到更大的生態系統/應用中,可直接使用。
訓練數據
訓練數據包含來自廣泛行業和學術研究領域的文本,因此該微調模型並非針對特定行業。
查看訓練數據:https://zenodo.org/records/8397907
訓練超參數
- 訓練輪數(Num_epoch) = 3
- 學習率(Learning rate) = 5e-5
- 批次大小(Batch size) = 16
評估
評估指標
- 準確率(Accuracy) = 0.90
- 馬修斯相關係數(Matthews correlation) = 0.89
📄 許可證
該模型使用mit許可證。
🔧 技術細節
此模型是通過對bert-base-uncased預訓練模型進行微調得到的,訓練數據來自公開的OSDG Community Dataset (OSDG-CD) Version 2023.10。在微調過程中,使用了特定的超參數,如訓練輪數為3,學習率為5e-5,批次大小為16。通過這些設置,模型在評估指標上取得了較好的結果,準確率達到0.90,馬修斯相關係數達到0.89。
📚 引用信息
相關引用信息將在論文審核通過後提供。
📞 模型卡片聯繫方式
s.sadick@deakin.edu.au