🚀 ModernBERT-base-zeroshot-v2.0
本模型是基于自然语言处理的预训练模型,在特定数据集上微调,具备高效和低内存消耗的特点,适用于多种自然语言处理任务。
🚀 快速开始
本模型暂未提供快速开始的相关内容。
✨ 主要特性
- 高效性:该模型速度极快且内存使用效率高。与DeBERTav3相比,它的速度快数倍,内存消耗也减少数倍。内存使用效率的提升使得可以使用更大的批次大小。通过启用bf16(而非fp16),速度可提升约2倍。
- 性能表现:在以下测试任务中,该模型的平均性能略逊于DeBERTav3。
- 版本更新:正在准备一个基于更好的合成数据训练的新版本,以充分利用8k的上下文窗口,并更新旧的
zeroshot-v2.0
模型的训练数据组合。
📚 详细文档
模型描述
该模型是在与Zeroshot Classifiers Collection 中的zeroshot-v2.0
模型相同的数据集组合上,对 answerdotai/ModernBERT-large 进行微调得到的。
训练结果
数据集 |
均值 |
无NLI均值 |
mnli_m |
mnli_mm |
fevernli |
anli_r1 |
anli_r2 |
anli_r3 |
wanli |
lingnli |
wellformedquery |
rottentomatoes |
amazonpolarity |
imdb |
yelpreviews |
hatexplain |
massive |
banking77 |
emotiondair |
emocontext |
empathetic |
agnews |
yahootopics |
biasframes_sex |
biasframes_offensive |
biasframes_intent |
financialphrasebank |
appreviews |
hateoffensive |
trueteacher |
spam |
wikitoxic_toxicaggregated |
wikitoxic_obscene |
wikitoxic_identityhate |
wikitoxic_threat |
wikitoxic_insult |
manifesto |
capsotu |
准确率 |
0.85 |
0.851 |
0.942 |
0.944 |
0.894 |
0.812 |
0.717 |
0.716 |
0.836 |
0.909 |
0.815 |
0.899 |
0.964 |
0.951 |
0.984 |
0.814 |
0.8 |
0.744 |
0.752 |
0.802 |
0.544 |
0.899 |
0.735 |
0.934 |
0.864 |
0.877 |
0.913 |
0.953 |
0.921 |
0.821 |
0.989 |
0.901 |
0.927 |
0.931 |
0.959 |
0.911 |
0.497 |
0.73 |
F1 宏值 |
0.834 |
0.835 |
0.935 |
0.938 |
0.882 |
0.795 |
0.688 |
0.676 |
0.823 |
0.898 |
0.814 |
0.899 |
0.964 |
0.951 |
0.984 |
0.77 |
0.753 |
0.763 |
0.69 |
0.805 |
0.533 |
0.899 |
0.729 |
0.925 |
0.864 |
0.877 |
0.901 |
0.953 |
0.855 |
0.821 |
0.983 |
0.901 |
0.927 |
0.931 |
0.952 |
0.911 |
0.362 |
0.662 |
推理文本/秒(A100 40GB GPU,批次大小 = 32) |
1116.0 |
1104.0 |
1039.0 |
1241.0 |
1138.0 |
1102.0 |
1124.0 |
1133.0 |
1251.0 |
1240.0 |
1263.0 |
1231.0 |
1054.0 |
559.0 |
795.0 |
1238.0 |
1312.0 |
1285.0 |
1273.0 |
1268.0 |
992.0 |
1222.0 |
894.0 |
1176.0 |
1194.0 |
1197.0 |
1206.0 |
1166.0 |
1227.0 |
541.0 |
1199.0 |
1045.0 |
1054.0 |
1020.0 |
1005.0 |
1063.0 |
1214.0 |
1220.0 |
训练超参数
训练过程中使用了以下超参数:
- 学习率:9e - 06
- 训练批次大小:16
- 评估批次大小:32
- 随机种子:42
- 梯度累积步数:2
- 总训练批次大小:32
- 优化器:使用adamw_torch,β值为(0.9, 0.999),ε值为1e - 08,无额外优化器参数
- 学习率调度器类型:线性
- 学习率调度器热身比例:0.06
- 训练轮数:2
框架版本
- Transformers 4.48.0.dev0
- Pytorch 2.5.1+cu124
- Datasets 3.2.0
- Tokenizers 0.21.0
📄 许可证
本项目采用Apache-2.0许可证。