🚀 ModernBERT-base-zeroshot-v2.0
本模型基于 answerdotai/ModernBERT-base 微调而来,使用了与 零样本分类器集合 中 zeroshot-v2.0
模型相同的数据集组合。该模型速度快且内存效率高,不过在部分测试任务上的表现略逊于 DeBERTav3。
🚀 快速开始
此部分文档未提供快速开始相关内容,若有需要可进一步补充。
✨ 主要特性
- 高效性能:模型速度极快且内存使用效率高,比 DeBERTav3 快数倍,内存消耗也大幅降低。内存效率的提升使得可以使用更大的批量大小,开启 bf16(而非 fp16)可实现约 2 倍的速度提升。
- 持续优化:正在准备基于更好的合成数据训练的新版本,以充分利用 8k 上下文窗口,并更新旧版
zeroshot-v2.0
模型的训练组合。
📚 详细文档
模型描述
该模型是 answerdotai/ModernBERT-base 的微调版本,微调数据集与 Zeroshot Classifiers Collection 中的 zeroshot-v2.0
模型相同。
总体结论
- 模型速度快且内存使用效率高,比 DeBERTav3 快数倍且消耗的内存更少。内存效率的提升使得可以使用更大的批量大小,开启 bf16(而非 fp16)可实现约 2 倍的速度提升。
- 在以下测试任务中,平均表现略逊于 DeBERTav3。
- 正在准备基于更好的合成数据训练的新版本,以充分利用 8k 上下文窗口,并更新旧版
zeroshot-v2.0
模型的训练组合。
训练结果
按数据集细分的结果如下:
| 数据集 | 均值 | 无 NLI 均值 | mnli_m | mnli_mm | fevernli | anli_r1 | anli_r2 | anli_r3 | wanli | lingnli | wellformedquery | rottentomatoes | amazonpolarity | imdb | yelpreviews | hatexplain | massive | banking77 | emotiondair | emocontext | empathetic | agnews | yahootopics | biasframes_sex | biasframes_offensive | biasframes_intent | financialphrasebank | appreviews | hateoffensive | trueteacher | spam | wikitoxic_toxicaggregated | wikitoxic_obscene | wikitoxic_identityhate | wikitoxic_threat | wikitoxic_insult | manifesto | capsotu |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| 准确率 | 0.831 | 0.835 | 0.932 | 0.936 | 0.884 | 0.763 | 0.647 | 0.657 | 0.823 | 0.889 | 0.753 | 0.864 | 0.949 | 0.935 | 0.974 | 0.798 | 0.788 | 0.727 | 0.789 | 0.793 | 0.489 | 0.893 | 0.717 | 0.927 | 0.851 | 0.859 | 0.907 | 0.952 | 0.926 | 0.726 | 0.978 | 0.912 | 0.914 | 0.93 | 0.951 | 0.906 | 0.476 | 0.708 |
| F1 宏值 | 0.813 | 0.818 | 0.925 | 0.93 | 0.872 | 0.74 | 0.61 | 0.611 | 0.81 | 0.874 | 0.751 | 0.864 | 0.949 | 0.935 | 0.974 | 0.751 | 0.738 | 0.746 | 0.733 | 0.798 | 0.475 | 0.893 | 0.712 | 0.919 | 0.851 | 0.859 | 0.892 | 0.952 | 0.847 | 0.721 | 0.966 | 0.912 | 0.914 | 0.93 | 0.942 | 0.906 | 0.329 | 0.637 |
| 推理文本/秒(A100 40GB GPU,批量大小 = 128) | 3472.0 | 3474.0 | 2338.0 | 4416.0 | 2993.0 | 2959.0 | 2904.0 | 3003.0 | 4647.0 | 4486.0 | 5032.0 | 4354.0 | 2466.0 | 1140.0 | 1582.0 | 4392.0 | 5446.0 | 5296.0 | 4904.0 | 4787.0 | 2251.0 | 4042.0 | 1884.0 | 4048.0 | 4032.0 | 4121.0 | 4275.0 | 3746.0 | 4485.0 | 1114.0 | 4322.0 | 2260.0 | 2274.0 | 2189.0 | 2085.0 | 2410.0 | 3933.0 | 4388.0 |
训练超参数
训练过程中使用了以下超参数:
- 学习率:5e - 05
- 训练批量大小:32
- 评估批量大小:128
- 随机种子:42
- 优化器:使用 adamw_torch,β1 = 0.9,β2 = 0.999,ε = 1e - 08,无额外优化器参数
- 学习率调度器类型:线性
- 学习率调度器热身比例:0.06
- 训练轮数:2
框架版本
- Transformers 4.48.0.dev0
- Pytorch 2.5.1+cu124
- Datasets 3.2.0
- Tokenizers 0.21.0
📄 许可证
本项目采用 Apache-2.0 许可证。