🚀 ModernCamemBERT
ModernCamemBERT 是一個在 1 萬億個高質量法語文本標記的大型語料庫上進行預訓練的法語語言模型。它是 ModernBERT 模型的法語版本。ModernCamemBERT 使用掩碼語言建模(MLM)目標,以 30% 的掩碼率在 48 個 H100 GPU 上對 1 萬億個標記進行訓練。用於訓練的數據集是經過啟發式和語義過濾的法語 RedPajama-V2、來自 HALvest 的法語科學文檔以及法語維基百科的組合。語義過濾是通過微調一個在由 LLama-3 70B 自動標記的文檔質量數據集上訓練的 BERT 分類器來完成的。
我們還複用了舊的 CamemBERTav2 分詞器。該模型最初以 1024 的上下文長度進行訓練,在預訓練後期增加到 8192 個標記。有關訓練過程的更多詳細信息,請參閱 ModernCamemBERT 論文。
ModernCamemBERT 的目標是通過在與 CamemBERTaV2(一種 DeBERTaV3 法語模型)相同的數據集上預訓練 ModernBERT 來進行對照研究,以分離模型設計的影響。我們的結果表明,上一代模型在樣本效率和整體基準性能方面仍然更勝一籌,而 ModernBERT 的主要優勢在於更快的訓練和推理速度。然而,與早期的模型(如 BERT 和 RoBERTa CamemBERT/v2 模型)相比,新提出的模型仍然在架構上有有意義的改進。此外,我們觀察到高質量的預訓練數據可以加速收斂,但不會顯著提高最終性能,這表明基準測試可能已達到飽和。
我們建議在需要大上下文長度或高效推理速度的任務中使用 ModernCamemBERT 模型。 其他任務仍應使用 CamemBERTaV2 模型,它在大多數基準測試中仍然是性能最佳的模型。
我們發佈了該模型的兩個版本:almanach/moderncamembert-base
和 almanach/moderncamembert-cv2-base
。第一個版本是在新的 1 萬億標記高質量數據集上訓練的,而第二個版本是在舊的 CamemBERTaV2 數據集上訓練的。這兩個模型使用相同的架構和超參數進行訓練。
🚀 快速開始
模型使用示例
from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM
model = AutoModel.from_pretrained("almanach/moderncamembert-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/moderncamembert-base")
📚 詳細文檔
微調結果
微調使用的數據集包括:命名實體識別(NER,FTB 數據集)、FLUE 基準測試(XNLI、CLS、PAWS-X)以及法語問答數據集(FQuAD)。
模型 |
FTB-NER |
CLS |
PAWS-X |
XNLI |
F1 (FQuAD) |
EM (FQuAD) |
CamemBERT |
89.97 |
94.62 |
91.36 |
81.95 |
80.98 |
62.51 |
CamemBERTa |
90.33 |
94.92 |
91.67 |
82.00 |
81.15 |
62.01 |
CamemBERTv2 |
81.99 |
95.07 |
92.00 |
81.75 |
80.98 |
61.35 |
CamemBERTav2 |
93.40 |
95.63 |
93.06 |
84.82 |
83.04 |
64.29 |
ModernCamemBERT-CV2 |
92.17 |
94.86 |
92.71 |
82.85 |
81.68 |
62.00 |
ModernCamemBERT |
91.33 |
94.92 |
92.52 |
83.62 |
82.19 |
62.66 |
微調後的模型可在以下集合中找到:ModernCamembert 模型
預訓練代碼庫
我們為所有 ModernCamemBERT 模型使用了來自 ModernBERT 倉庫 的預訓練代碼庫。
引用信息
@misc{antoun2025modernbertdebertav3examiningarchitecture,
title={ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance},
author={Wissam Antoun and Benoît Sagot and Djamé Seddah},
year={2025},
eprint={2504.08716},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2504.08716},
}
📄 許可證
本項目採用 MIT 許可證。
📦 模型信息
屬性 |
詳情 |
模型類型 |
法語語言模型 |
訓練數據 |
經過啟發式和語義過濾的法語 RedPajama-V2、來自 HALvest 的法語科學文檔、法語維基百科 |
標籤 |
modernbert、camembert |
任務類型 |
掩碼填充 |