🚀 ModernCamemBERT
ModernCamemBERTは、高品質なフランス語テキストの1Tトークンの大規模コーパスで事前学習されたフランス語モデルです。これは、ModernBERTモデルのフランス語版です。
🚀 クイックスタート
ModernCamemBERT は、1Tトークンの高品質なフランス語テキストの大規模コーパスで事前学習されたフランス語モデルです。これは、ModernBERT モデルのフランス語版です。ModernCamemBERTは、48台のH100 GPU上で1Tトークンに対して30%のマスク率でマスク言語モデリング(MLM)の目的で学習されました。学習に使用されたデータセットは、ヒューリスティックとセマンティックフィルタリングを使用してフィルタリングされたフランス語の RedPajama-V2、HALvest からのフランス語の科学文書、およびフランス語のウィキペディアの組み合わせです。セマンティックフィルタリングは、LLama-3 70Bによって自動的にラベル付けされた文書品質データセットで学習されたBERT分類器を微調整することによって行われました。
古い CamemBERTav2 トークナイザーも再利用しています。モデルは最初に1024のコンテキスト長で学習され、その後事前学習の後半で8192トークンに増やされました。学習プロセスの詳細については、ModernCamemBERT 論文を参照してください。
ModernCamemBERTの目標は、DeBERTaV3フランス語モデルであるCamemBERTaV2と同じデータセットでModernBERTを事前学習することによって、モデル設計の影響を分離したコントロールされた研究を行うことでした。結果は、以前のモデル世代がサンプル効率と全体的なベンチマーク性能において優れており、ModernBERTの主な利点は学習と推論の速度が速いことであることを示しています。ただし、提案された新しいモデルは、BERTやRoBERTa CamemBERT/v2モデルなどの以前のモデルと比較して、有意義なアーキテクチャの改善を提供しています。さらに、高品質の事前学習データは収束を加速させますが、最終的な性能を大幅に改善するわけではないことが観察されており、ベンチマークの飽和の可能性を示唆しています。
私たちは、大きなコンテキスト長または効率的な推論速度が必要なタスクにはModernCamemBERTモデルを使用することをお勧めします。 その他のタスクには、依然としてほとんどのベンチマークで最良の性能を発揮するCamemBERTaV2モデルを使用する必要があります。
私たちは、モデルの2つのバージョン、almanach/moderncamembert-base
と almanach/moderncamembert-cv2-base
をリリースしています。最初のバージョンは、新しい高品質の1Tトークンデータセットで学習されたもので、2番目のバージョンは古いCamemBERTaV2データセットで学習されたものです。2つのモデルは同じアーキテクチャとハイパーパラメータで学習されています。
✨ 主な機能
- 高品質なフランス語テキストの大規模コーパスで事前学習されたフランス語モデル。
- 学習と推論の速度が速い。
- 大きなコンテキスト長をサポートする。
📦 インストール
このセクションでは、具体的なインストール手順が提供されていません。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM
model = AutoModel.from_pretrained("almanach/moderncamembert-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/moderncamembert-base")
📚 ドキュメント
微調整結果
データセット: NER (FTB)、FLUEベンチマーク (XNLI、CLS、PAWS-X)、フランス語質問応答データセット (FQuAD)。
モデル |
FTB-NER |
CLS |
PAWS-X |
XNLI |
F1 (FQuAD) |
EM (FQuAD) |
CamemBERT |
89.97 |
94.62 |
91.36 |
81.95 |
80.98 |
62.51 |
CamemBERTa |
90.33 |
94.92 |
91.67 |
82.00 |
81.15 |
62.01 |
CamemBERTv2 |
81.99 |
95.07 |
92.00 |
81.75 |
80.98 |
61.35 |
CamemBERTav2 |
93.40 |
95.63 |
93.06 |
84.82 |
83.04 |
64.29 |
ModernCamemBERT-CV2 |
92.17 |
94.86 |
92.71 |
82.85 |
81.68 |
62.00 |
ModernCamemBERT |
91.33 |
94.92 |
92.52 |
83.62 |
82.19 |
62.66 |
微調整されたモデルは、次のコレクションで利用可能です: ModernCamembert Models
事前学習コードベース
すべてのModernCamemBERTモデルには、ModernBERTリポジトリ の事前学習コードベースを使用しています。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
引用
@misc{antoun2025modernbertdebertav3examiningarchitecture,
title={ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance},
author={Wissam Antoun and Benoît Sagot and Djamé Seddah},
year={2025},
eprint={2504.08716},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2504.08716},
}