🚀 ModernCamemBERT
ModernCamemBERT是一個在1萬億高質量法語文本標記的大型語料庫上預訓練的法語語言模型。它是ModernBERT模型的法語版本。該模型旨在通過在與CamemBERTaV2(一種DeBERTaV3法語模型)相同的數據集上預訓練ModernBERT來進行對照研究,以分離模型設計的影響。
🚀 快速開始
模型使用
from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM
model = AutoModel.from_pretrained("almanach/moderncamembert-cv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/moderncamembert-cv2-base")
微調模型
微調後的模型可在以下集合中找到:ModernCamembert Models
✨ 主要特性
- 大規模預訓練:在1萬億標記的高質量法語文本語料庫上進行預訓練。
- 模型設計研究:通過與CamemBERTaV2在相同數據集上訓練,研究模型設計的影響。
- 不同版本發佈:發佈了兩個版本的模型,分別基於新的高質量1萬億標記數據集和舊的CamemBERTaV2數據集進行訓練。
📦 安裝指南
文檔未提及具體安裝步驟,可參考ModernBERT倉庫中的預訓練代碼庫。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM
model = AutoModel.from_pretrained("almanach/moderncamembert-cv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/moderncamembert-cv2-base")
📚 詳細文檔
模型訓練
ModernCamemBERT使用掩碼語言建模(MLM)目標,在48個H100 GPU上對1萬億標記進行訓練,掩碼率為30%。訓練數據集結合了經過啟發式和語義過濾的法語RedPajama-V2、來自HALvest的法語科學文檔以及法語維基百科。語義過濾通過在由LLama-3 70B自動標記的文檔質量數據集上微調BERT分類器來完成。
模型版本
微調結果
模型 |
FTB-NER |
CLS |
PAWS-X |
XNLI |
F1 (FQuAD) |
EM (FQuAD) |
CamemBERT |
89.97 |
94.62 |
91.36 |
81.95 |
80.98 |
62.51 |
CamemBERTa |
90.33 |
94.92 |
91.67 |
82.00 |
81.15 |
62.01 |
CamemBERTv2 |
81.99 |
95.07 |
92.00 |
81.75 |
80.98 |
61.35 |
CamemBERTav2 |
93.40 |
95.63 |
93.06 |
84.82 |
83.04 |
64.29 |
ModernCamemBERT-CV2 |
92.17 |
94.86 |
92.71 |
82.85 |
81.68 |
62.00 |
ModernCamemBERT |
91.33 |
94.92 |
92.52 |
83.62 |
82.19 |
62.66 |
數據集
- NER (FTB)
- FLUE基準測試(XNLI、CLS、PAWS-X)
- 法語問答數據集(FQuAD)
🔧 技術細節
訓練過程
模型首先以1024的上下文長度進行訓練,然後在預訓練後期將其增加到8192個標記。更多關於訓練過程的詳細信息可以在ModernCamemBERT論文中找到。
分詞器
複用了舊的CamemBERTav2分詞器。
📄 許可證
本項目採用MIT許可證。
📖 引用
@misc{antoun2025modernbertdebertav3examiningarchitecture,
title={ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance},
author={Wissam Antoun and Benoît Sagot and Djamé Seddah},
year={2025},
eprint={2504.08716},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2504.08716},
}
💡 使用建議
建議在需要大上下文長度或高效推理速度的任務中使用ModernCamemBERT模型。其他任務仍應使用CamemBERTaV2模型,因為它在大多數基準測試中仍然是性能最佳的模型。