🚀 ModernBERT-base-zeroshot-v2.0
このモデルは、自然言語処理タスクにおいて高速かつメモリ効率が高い性能を発揮します。事前学習モデルをファインチューニングしており、様々なデータセットでの評価結果が提供されています。
🚀 クイックスタート
このセクションでは、モデルの概要や一般的な特徴について説明します。
モデルの説明
このモデルは、answerdotai/ModernBERT-base を Zeroshot Classifiers Collection の zeroshot-v2.0
モデルと同じデータセットミックスでファインチューニングしたものです。
一般的な知見
- このモデルは非常に高速でメモリ効率が高いです。DeBERTav3 よりも何倍も高速で、メモリ消費量が少ないです。メモリ効率の高さにより、より大きなバッチサイズが可能になります。bf16 を有効にすることで(fp16 の代わりに)、約 2 倍の速度向上が得られました。
- 以下のテストタスクでは、平均的に DeBERTav3 よりもやや性能が劣ります。
- 現在、8k のコンテキストウィンドウを最大限に活用し、古い
zeroshot-v2.0
モデルのトレーニングミックスを更新するために、より良い合成データでトレーニングされた新しいバージョンを準備中です。
✨ 主な機能
- 高速かつメモリ効率の高い推論
- 様々な自然言語処理タスクに対応
📚 ドキュメント
トレーニング結果
各データセットごとの詳細な結果は以下の通りです。
| データセット | 平均 | NLI を除く平均 | mnli_m | mnli_mm | fevernli | anli_r1 | anli_r2 | anli_r3 | wanli | lingnli | wellformedquery | rottentomatoes | amazonpolarity | imdb | yelpreviews | hatexplain | massive | banking77 | emotiondair | emocontext | empathetic | agnews | yahootopics | biasframes_sex | biasframes_offensive | biasframes_intent | financialphrasebank | appreviews | hateoffensive | trueteacher | spam | wikitoxic_toxicaggregated | wikitoxic_obscene | wikitoxic_identityhate | wikitoxic_threat | wikitoxic_insult | manifesto | capsotu |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| 正解率 | 0.831 | 0.835 | 0.932 | 0.936 | 0.884 | 0.763 | 0.647 | 0.657 | 0.823 | 0.889 | 0.753 | 0.864 | 0.949 | 0.935 | 0.974 | 0.798 | 0.788 | 0.727 | 0.789 | 0.793 | 0.489 | 0.893 | 0.717 | 0.927 | 0.851 | 0.859 | 0.907 | 0.952 | 0.926 | 0.726 | 0.978 | 0.912 | 0.914 | 0.93 | 0.951 | 0.906 | 0.476 | 0.708 |
| F1 マクロ | 0.813 | 0.818 | 0.925 | 0.93 | 0.872 | 0.74 | 0.61 | 0.611 | 0.81 | 0.874 | 0.751 | 0.864 | 0.949 | 0.935 | 0.974 | 0.751 | 0.738 | 0.746 | 0.733 | 0.798 | 0.475 | 0.893 | 0.712 | 0.919 | 0.851 | 0.859 | 0.892 | 0.952 | 0.847 | 0.721 | 0.966 | 0.912 | 0.914 | 0.93 | 0.942 | 0.906 | 0.329 | 0.637 |
| 推論速度(A100 40GB GPU、バッチサイズ 128) | 3472.0 | 3474.0 | 2338.0 | 4416.0 | 2993.0 | 2959.0 | 2904.0 | 3003.0 | 4647.0 | 4486.0 | 5032.0 | 4354.0 | 2466.0 | 1140.0 | 1582.0 | 4392.0 | 5446.0 | 5296.0 | 4904.0 | 4787.0 | 2251.0 | 4042.0 | 1884.0 | 4048.0 | 4032.0 | 4121.0 | 4275.0 | 3746.0 | 4485.0 | 1114.0 | 4322.0 | 2260.0 | 2274.0 | 2189.0 | 2085.0 | 2410.0 | 3933.0 | 4388.0 |
トレーニングハイパーパラメータ
トレーニング時に使用されたハイパーパラメータは以下の通りです。
- 学習率: 5e-05
- トレーニングバッチサイズ: 32
- 評価バッチサイズ: 128
- シード: 42
- オプティマイザ: betas=(0.9, 0.999)、epsilon=1e-08 の adamw_torch を使用。追加のオプティマイザ引数はありません。
- 学習率スケジューラの種類: 線形
- 学習率スケジューラのウォームアップ率: 0.06
- エポック数: 2
フレームワークのバージョン
- Transformers 4.48.0.dev0
- Pytorch 2.5.1+cu124
- Datasets 3.2.0
- Tokenizers 0.21.0
📄 ライセンス
このモデルは Apache-2.0 ライセンスの下で提供されています。