模型概述
模型特點
模型能力
使用案例
🚀 文本分類模型:安全與不適宜內容檢測
本模型旨在將文本分為“安全”和“不適宜工作環境(NSFW)”兩類,適用於內容審核和過濾應用。它基於Distilbert-base模型,使用包含190,000個標記文本樣本的數據集進行訓練。在性能方面,F1分數達到了0.974。
✨ 主要特性
- 精準分類:能夠準確地將文本分為“安全”和“不適宜工作環境(NSFW)”兩類。
- 高性能:在F1、準確率、精確率和召回率等指標上表現出色。
- 易於集成:可以輕鬆集成到大型系統中,用於內容審核和過濾。
📦 安裝指南
文檔未提供具體安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("eliasalbouzidi/distilbert-nsfw-text-classifier")
model = AutoModelForSequenceClassification.from_pretrained("eliasalbouzidi/distilbert-nsfw-text-classifier")
高級用法
from transformers import pipeline
pipe = pipeline("text-classification", model="eliasalbouzidi/distilbert-nsfw-text-classifier")
📚 詳細文檔
模型描述
該模型可直接用於將文本分類為“安全”或“不適宜工作環境(NSFW)”。它接受字符串文本作為輸入,並輸出兩個類別上的概率分佈,概率最高的類別即為預測類別。
- 開發者:Elias Al Bouzidi, Massine El Khader, Abdellah Oumida, Mohammed Sbaihi, Eliott Binard
- 模型類型:60M
- 語言(NLP):英語
- 許可證:apache - 2.0
使用場景
該模型可集成到更大的系統中,用於內容審核或過濾。
訓練數據
用於微調文本分類模型的訓練數據包含一個大型文本語料庫,這些文本被標記為“安全”和“不適宜工作環境(NSFW)”兩類。數據集共有190,000個示例,分佈如下:
- 117,000個標記為“安全”的示例
- 63,000個標記為“不適宜工作環境(NSFW)”的示例
該數據集是通過從網絡上抓取數據並利用現有的開源數據集組裝而成的。大部分數據集由圖像和場景的描述組成。其主要目的是防止擴散模型生成不適宜內容,但也可用於其他審核目的。
你可以訪問該數據集:https://huggingface.co/datasets/eliasalbouzidi/NSFW-Safe-Dataset
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:1e - 05
- 訓練批次大小:32
- 評估批次大小:32
- 隨機種子:42
- 優化器:Adam(beta1 = 0.9,beta2 = 0.999,epsilon = 1e - 08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:600
- 訓練輪數:3
- 混合精度訓練:Native AMP
訓練結果
訓練損失 | 輪數 | 步數 | 驗證損失 | 準確率 | F1分數 | Fbeta 1.6 | 假陽性率 | 假陰性率 | 精確率 | 召回率 |
---|---|---|---|---|---|---|---|---|---|---|
0.3367 | 0.0998 | 586 | 0.1227 | 0.9586 | 0.9448 | 0.9447 | 0.0331 | 0.0554 | 0.9450 | 0.9446 |
0.0998 | 0.1997 | 1172 | 0.0919 | 0.9705 | 0.9606 | 0.9595 | 0.0221 | 0.0419 | 0.9631 | 0.9581 |
0.0896 | 0.2995 | 1758 | 0.0900 | 0.9730 | 0.9638 | 0.9600 | 0.0163 | 0.0448 | 0.9724 | 0.9552 |
0.087 | 0.3994 | 2344 | 0.0820 | 0.9743 | 0.9657 | 0.9646 | 0.0191 | 0.0367 | 0.9681 | 0.9633 |
0.0806 | 0.4992 | 2930 | 0.0717 | 0.9752 | 0.9672 | 0.9713 | 0.0256 | 0.0235 | 0.9582 | 0.9765 |
0.0741 | 0.5991 | 3516 | 0.0741 | 0.9753 | 0.9674 | 0.9712 | 0.0251 | 0.0240 | 0.9589 | 0.9760 |
0.0747 | 0.6989 | 4102 | 0.0689 | 0.9773 | 0.9697 | 0.9696 | 0.0181 | 0.0305 | 0.9699 | 0.9695 |
0.0707 | 0.7988 | 4688 | 0.0738 | 0.9781 | 0.9706 | 0.9678 | 0.0137 | 0.0356 | 0.9769 | 0.9644 |
0.0644 | 0.8986 | 5274 | 0.0682 | 0.9796 | 0.9728 | 0.9708 | 0.0135 | 0.0317 | 0.9773 | 0.9683 |
0.0688 | 0.9985 | 5860 | 0.0658 | 0.9798 | 0.9730 | 0.9718 | 0.0144 | 0.0298 | 0.9758 | 0.9702 |
0.0462 | 1.0983 | 6446 | 0.0682 | 0.9800 | 0.9733 | 0.9723 | 0.0146 | 0.0290 | 0.9756 | 0.9710 |
0.0498 | 1.1982 | 7032 | 0.0706 | 0.9800 | 0.9733 | 0.9717 | 0.0138 | 0.0303 | 0.9768 | 0.9697 |
0.0484 | 1.2980 | 7618 | 0.0773 | 0.9797 | 0.9728 | 0.9696 | 0.0117 | 0.0345 | 0.9802 | 0.9655 |
0.0483 | 1.3979 | 8204 | 0.0676 | 0.9800 | 0.9734 | 0.9742 | 0.0172 | 0.0248 | 0.9715 | 0.9752 |
0.0481 | 1.4977 | 8790 | 0.0678 | 0.9798 | 0.9731 | 0.9737 | 0.0170 | 0.0255 | 0.9717 | 0.9745 |
0.0474 | 1.5975 | 9376 | 0.0665 | 0.9782 | 0.9713 | 0.9755 | 0.0234 | 0.0191 | 0.9618 | 0.9809 |
0.0432 | 1.6974 | 9962 | 0.0691 | 0.9787 | 0.9718 | 0.9748 | 0.0213 | 0.0213 | 0.9651 | 0.9787 |
0.0439 | 1.7972 | 10548 | 0.0683 | 0.9811 | 0.9748 | 0.9747 | 0.0150 | 0.0254 | 0.9750 | 0.9746 |
0.0442 | 1.8971 | 11134 | 0.0710 | 0.9809 | 0.9744 | 0.9719 | 0.0118 | 0.0313 | 0.9802 | 0.9687 |
0.0425 | 1.9969 | 11720 | 0.0671 | 0.9810 | 0.9747 | 0.9756 | 0.0165 | 0.0232 | 0.9726 | 0.9768 |
0.0299 | 2.0968 | 12306 | 0.0723 | 0.9802 | 0.9738 | 0.9758 | 0.0187 | 0.0217 | 0.9692 | 0.9783 |
0.0312 | 2.1966 | 12892 | 0.0790 | 0.9804 | 0.9738 | 0.9731 | 0.0146 | 0.0279 | 0.9755 | 0.9721 |
0.0266 | 2.2965 | 13478 | 0.0840 | 0.9815 | 0.9752 | 0.9728 | 0.0115 | 0.0302 | 0.9806 | 0.9698 |
0.0277 | 2.3963 | 14064 | 0.0742 | 0.9808 | 0.9746 | 0.9770 | 0.0188 | 0.0199 | 0.9690 | 0.9801 |
0.0294 | 2.4962 | 14650 | 0.0764 | 0.9809 | 0.9747 | 0.9765 | 0.0179 | 0.0211 | 0.9705 | 0.9789 |
0.0304 | 2.5960 | 15236 | 0.0795 | 0.9811 | 0.9748 | 0.9742 | 0.0142 | 0.0266 | 0.9763 | 0.9734 |
0.0287 | 2.6959 | 15822 | 0.0783 | 0.9814 | 0.9751 | 0.9741 | 0.0134 | 0.0272 | 0.9775 | 0.9728 |
0.0267 | 2.7957 | 16408 | 0.0805 | 0.9814 | 0.9751 | 0.9740 | 0.0133 | 0.0274 | 0.9777 | 0.9726 |
0.0318 | 2.8956 | 16994 | 0.0767 | 0.9814 | 0.9752 | 0.9756 | 0.0154 | 0.0240 | 0.9744 | 0.9760 |
0.0305 | 2.9954 | 17580 | 0.0779 | 0.9815 | 0.9753 | 0.9751 | 0.0146 | 0.0251 | 0.9757 | 0.9749 |
我們選擇了F - beta1.6分數最高的檢查點。
框架版本
- Transformers 4.40.1
- Pytorch 2.3.0 + cu121
- Datasets 2.19.0
- Tokenizers 0.19.1
適用範圍外的使用
本模型不得用於任何非法活動。
🔧 技術細節
模型可能會根據所使用的訓練數據表現出偏差。對於非英語文本,模型的性能可能不佳。對於諷刺、反語或其他修辭手法的文本,模型也可能難以處理。此外,模型可能會產生誤報或漏報,從而導致文本分類錯誤。
建議
用戶應瞭解模型的侷限性和偏差,並相應地使用它。同時,用戶應做好處理誤報和漏報的準備。建議針對特定的下游任務對模型進行微調,並在相關數據集上評估其性能。
📄 許可證
本模型使用的許可證為apache - 2.0。
📞 聯繫我們
如果您有任何問題或反饋,請發送郵件至eliasalbouzidi@gmail.com。








