🚀 ModernBERT-base-zeroshot-v2.0
本模型是基於自然語言處理的預訓練模型,在特定數據集上微調,具備高效和低內存消耗的特點,適用於多種自然語言處理任務。
🚀 快速開始
本模型暫未提供快速開始的相關內容。
✨ 主要特性
- 高效性:該模型速度極快且內存使用效率高。與DeBERTav3相比,它的速度快數倍,內存消耗也減少數倍。內存使用效率的提升使得可以使用更大的批次大小。通過啟用bf16(而非fp16),速度可提升約2倍。
- 性能表現:在以下測試任務中,該模型的平均性能略遜於DeBERTav3。
- 版本更新:正在準備一個基於更好的合成數據訓練的新版本,以充分利用8k的上下文窗口,並更新舊的
zeroshot-v2.0
模型的訓練數據組合。
📚 詳細文檔
模型描述
該模型是在與Zeroshot Classifiers Collection 中的zeroshot-v2.0
模型相同的數據集組合上,對 answerdotai/ModernBERT-large 進行微調得到的。
訓練結果
數據集 |
均值 |
無NLI均值 |
mnli_m |
mnli_mm |
fevernli |
anli_r1 |
anli_r2 |
anli_r3 |
wanli |
lingnli |
wellformedquery |
rottentomatoes |
amazonpolarity |
imdb |
yelpreviews |
hatexplain |
massive |
banking77 |
emotiondair |
emocontext |
empathetic |
agnews |
yahootopics |
biasframes_sex |
biasframes_offensive |
biasframes_intent |
financialphrasebank |
appreviews |
hateoffensive |
trueteacher |
spam |
wikitoxic_toxicaggregated |
wikitoxic_obscene |
wikitoxic_identityhate |
wikitoxic_threat |
wikitoxic_insult |
manifesto |
capsotu |
準確率 |
0.85 |
0.851 |
0.942 |
0.944 |
0.894 |
0.812 |
0.717 |
0.716 |
0.836 |
0.909 |
0.815 |
0.899 |
0.964 |
0.951 |
0.984 |
0.814 |
0.8 |
0.744 |
0.752 |
0.802 |
0.544 |
0.899 |
0.735 |
0.934 |
0.864 |
0.877 |
0.913 |
0.953 |
0.921 |
0.821 |
0.989 |
0.901 |
0.927 |
0.931 |
0.959 |
0.911 |
0.497 |
0.73 |
F1 宏值 |
0.834 |
0.835 |
0.935 |
0.938 |
0.882 |
0.795 |
0.688 |
0.676 |
0.823 |
0.898 |
0.814 |
0.899 |
0.964 |
0.951 |
0.984 |
0.77 |
0.753 |
0.763 |
0.69 |
0.805 |
0.533 |
0.899 |
0.729 |
0.925 |
0.864 |
0.877 |
0.901 |
0.953 |
0.855 |
0.821 |
0.983 |
0.901 |
0.927 |
0.931 |
0.952 |
0.911 |
0.362 |
0.662 |
推理文本/秒(A100 40GB GPU,批次大小 = 32) |
1116.0 |
1104.0 |
1039.0 |
1241.0 |
1138.0 |
1102.0 |
1124.0 |
1133.0 |
1251.0 |
1240.0 |
1263.0 |
1231.0 |
1054.0 |
559.0 |
795.0 |
1238.0 |
1312.0 |
1285.0 |
1273.0 |
1268.0 |
992.0 |
1222.0 |
894.0 |
1176.0 |
1194.0 |
1197.0 |
1206.0 |
1166.0 |
1227.0 |
541.0 |
1199.0 |
1045.0 |
1054.0 |
1020.0 |
1005.0 |
1063.0 |
1214.0 |
1220.0 |
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:9e - 06
- 訓練批次大小:16
- 評估批次大小:32
- 隨機種子:42
- 梯度累積步數:2
- 總訓練批次大小:32
- 優化器:使用adamw_torch,β值為(0.9, 0.999),ε值為1e - 08,無額外優化器參數
- 學習率調度器類型:線性
- 學習率調度器熱身比例:0.06
- 訓練輪數:2
框架版本
- Transformers 4.48.0.dev0
- Pytorch 2.5.1+cu124
- Datasets 3.2.0
- Tokenizers 0.21.0
📄 許可證
本項目採用Apache-2.0許可證。