moderncamembert-cv2-base開源法語語言模型 - 基於萬億法語文本預訓練

首頁

Moderncamembert Cv2 Base

由almanach開發

基於1萬億高質量法語文本預訓練的法語語言模型，是ModernBERT的法語版本

大型語言模型

Transformers

法語開源協議:MIT #法語語言模型 #長上下文處理 #高效推理

下載量 232

發布時間 : 4/11/2025

模型概述

ModernCamemBERT是一個採用掩碼語言建模(MLM)目標的法語Transformer模型，在48張H100 GPU上訓練完成，支持長上下文處理

模型特點

大規模預訓練

使用1萬億token的高質量法語語料進行訓練，包含RedPajama-V2、HALvest科學文獻和法語維基百科

高效架構

相比傳統BERT架構，具有更快的訓練和推理速度

長上下文支持

預訓練初期使用1024上下文長度，後期擴展至8192token

嚴格數據過濾

通過基於LLama-3 70B的BERT分類器進行語義過濾，確保數據質量

模型能力

法語文本理解

掩碼語言建模

長文本處理

使用案例

自然語言處理

命名實體識別

法語文本中的命名實體識別任務

在FTB-NER數據集上達到92.17 F1分數

文本分類

法語文本分類任務

在CLS數據集上達到94.86準確率

問答系統

法語問答系統開發

在FQuAD數據集上達到81.68 F1分數

🚀 ModernCamemBERT

ModernCamemBERT是一個在1萬億高質量法語文本標記的大型語料庫上預訓練的法語語言模型。它是ModernBERT模型的法語版本。該模型旨在通過在與CamemBERTaV2（一種DeBERTaV3法語模型）相同的數據集上預訓練ModernBERT來進行對照研究，以分離模型設計的影響。

🚀 快速開始

模型使用

from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM

model = AutoModel.from_pretrained("almanach/moderncamembert-cv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/moderncamembert-cv2-base")

微調模型

微調後的模型可在以下集合中找到：ModernCamembert Models

✨ 主要特性

大規模預訓練：在1萬億標記的高質量法語文本語料庫上進行預訓練。
模型設計研究：通過與CamemBERTaV2在相同數據集上訓練，研究模型設計的影響。
不同版本發佈：發佈了兩個版本的模型，分別基於新的高質量1萬億標記數據集和舊的CamemBERTaV2數據集進行訓練。

📦 安裝指南

文檔未提及具體安裝步驟，可參考ModernBERT倉庫中的預訓練代碼庫。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM

model = AutoModel.from_pretrained("almanach/moderncamembert-cv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/moderncamembert-cv2-base")

📚 詳細文檔

模型訓練

ModernCamemBERT使用掩碼語言建模（MLM）目標，在48個H100 GPU上對1萬億標記進行訓練，掩碼率為30%。訓練數據集結合了經過啟發式和語義過濾的法語RedPajama-V2、來自HALvest的法語科學文檔以及法語維基百科。語義過濾通過在由LLama-3 70B自動標記的文檔質量數據集上微調BERT分類器來完成。

模型版本

almanach/moderncamembert-base：在新的高質量1萬億標記數據集上訓練。
almanach/moderncamembert-cv2-base：在舊的CamemBERTaV2數據集上訓練。

微調結果

模型	FTB-NER	CLS	PAWS-X	XNLI	F1 (FQuAD)	EM (FQuAD)
CamemBERT	89.97	94.62	91.36	81.95	80.98	62.51
CamemBERTa	90.33	94.92	91.67	82.00	81.15	62.01
CamemBERTv2	81.99	95.07	92.00	81.75	80.98	61.35
CamemBERTav2	93.40	95.63	93.06	84.82	83.04	64.29
ModernCamemBERT-CV2	92.17	94.86	92.71	82.85	81.68	62.00
ModernCamemBERT	91.33	94.92	92.52	83.62	82.19	62.66

數據集

NER (FTB)
FLUE基準測試（XNLI、CLS、PAWS-X）
法語問答數據集（FQuAD）

🔧 技術細節

訓練過程

模型首先以1024的上下文長度進行訓練，然後在預訓練後期將其增加到8192個標記。更多關於訓練過程的詳細信息可以在ModernCamemBERT論文中找到。

分詞器

複用了舊的CamemBERTav2分詞器。

📄 許可證

本項目採用MIT許可證。

📖 引用

@misc{antoun2025modernbertdebertav3examiningarchitecture,
      title={ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance}, 
      author={Wissam Antoun and Benoît Sagot and Djamé Seddah},
      year={2025},
      eprint={2504.08716},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2504.08716}, 
}