🚀 ModernBERT-base-zeroshot-v2.0
本模型基於 answerdotai/ModernBERT-base 微調而來,使用了與 零樣本分類器集合 中 zeroshot-v2.0
模型相同的數據集組合。該模型速度快且內存效率高,不過在部分測試任務上的表現略遜於 DeBERTav3。
🚀 快速開始
此部分文檔未提供快速開始相關內容,若有需要可進一步補充。
✨ 主要特性
- 高效性能:模型速度極快且內存使用效率高,比 DeBERTav3 快數倍,內存消耗也大幅降低。內存效率的提升使得可以使用更大的批量大小,開啟 bf16(而非 fp16)可實現約 2 倍的速度提升。
- 持續優化:正在準備基於更好的合成數據訓練的新版本,以充分利用 8k 上下文窗口,並更新舊版
zeroshot-v2.0
模型的訓練組合。
📚 詳細文檔
模型描述
該模型是 answerdotai/ModernBERT-base 的微調版本,微調數據集與 Zeroshot Classifiers Collection 中的 zeroshot-v2.0
模型相同。
總體結論
- 模型速度快且內存使用效率高,比 DeBERTav3 快數倍且消耗的內存更少。內存效率的提升使得可以使用更大的批量大小,開啟 bf16(而非 fp16)可實現約 2 倍的速度提升。
- 在以下測試任務中,平均表現略遜於 DeBERTav3。
- 正在準備基於更好的合成數據訓練的新版本,以充分利用 8k 上下文窗口,並更新舊版
zeroshot-v2.0
模型的訓練組合。
訓練結果
按數據集細分的結果如下:
| 數據集 | 均值 | 無 NLI 均值 | mnli_m | mnli_mm | fevernli | anli_r1 | anli_r2 | anli_r3 | wanli | lingnli | wellformedquery | rottentomatoes | amazonpolarity | imdb | yelpreviews | hatexplain | massive | banking77 | emotiondair | emocontext | empathetic | agnews | yahootopics | biasframes_sex | biasframes_offensive | biasframes_intent | financialphrasebank | appreviews | hateoffensive | trueteacher | spam | wikitoxic_toxicaggregated | wikitoxic_obscene | wikitoxic_identityhate | wikitoxic_threat | wikitoxic_insult | manifesto | capsotu |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| 準確率 | 0.831 | 0.835 | 0.932 | 0.936 | 0.884 | 0.763 | 0.647 | 0.657 | 0.823 | 0.889 | 0.753 | 0.864 | 0.949 | 0.935 | 0.974 | 0.798 | 0.788 | 0.727 | 0.789 | 0.793 | 0.489 | 0.893 | 0.717 | 0.927 | 0.851 | 0.859 | 0.907 | 0.952 | 0.926 | 0.726 | 0.978 | 0.912 | 0.914 | 0.93 | 0.951 | 0.906 | 0.476 | 0.708 |
| F1 宏值 | 0.813 | 0.818 | 0.925 | 0.93 | 0.872 | 0.74 | 0.61 | 0.611 | 0.81 | 0.874 | 0.751 | 0.864 | 0.949 | 0.935 | 0.974 | 0.751 | 0.738 | 0.746 | 0.733 | 0.798 | 0.475 | 0.893 | 0.712 | 0.919 | 0.851 | 0.859 | 0.892 | 0.952 | 0.847 | 0.721 | 0.966 | 0.912 | 0.914 | 0.93 | 0.942 | 0.906 | 0.329 | 0.637 |
| 推理文本/秒(A100 40GB GPU,批量大小 = 128) | 3472.0 | 3474.0 | 2338.0 | 4416.0 | 2993.0 | 2959.0 | 2904.0 | 3003.0 | 4647.0 | 4486.0 | 5032.0 | 4354.0 | 2466.0 | 1140.0 | 1582.0 | 4392.0 | 5446.0 | 5296.0 | 4904.0 | 4787.0 | 2251.0 | 4042.0 | 1884.0 | 4048.0 | 4032.0 | 4121.0 | 4275.0 | 3746.0 | 4485.0 | 1114.0 | 4322.0 | 2260.0 | 2274.0 | 2189.0 | 2085.0 | 2410.0 | 3933.0 | 4388.0 |
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:5e - 05
- 訓練批量大小:32
- 評估批量大小:128
- 隨機種子:42
- 優化器:使用 adamw_torch,β1 = 0.9,β2 = 0.999,ε = 1e - 08,無額外優化器參數
- 學習率調度器類型:線性
- 學習率調度器熱身比例:0.06
- 訓練輪數:2
框架版本
- Transformers 4.48.0.dev0
- Pytorch 2.5.1+cu124
- Datasets 3.2.0
- Tokenizers 0.21.0
📄 許可證
本項目採用 Apache-2.0 許可證。