🚀 CamemBERT(a)-v2:一款臻於完美的智能法語語言模型
CamemBERTav2 是一款在 2750 億個法語文本標記的大型語料庫上進行預訓練的法語語言模型。它是 CamemBERTa 模型的第二個版本,基於 DebertaV2 架構構建。CamemBERTav2 在 32 個 H100 GPU 上,使用 20% 的掩碼率,通過替換標記檢測(Replaced Token Detection,RTD)目標對 2750 億個標記進行訓練。訓練使用的數據集結合了來自 CulturaX 項目 的法語 OSCAR 轉儲數據、來自 HALvest 的法語科學文檔以及法語維基百科。
該模型可直接替代原始的 CamemBERTa 模型。需要注意的是,新的分詞器與原始的 CamemBERTa 分詞器不同,因此你需要使用快速分詞器來使用該模型。即使原始的 DebertaV2TokenizerFast
基於 SentencePiece,它也可以與 transformers
庫中的 DebertaV2TokenizerFast
一起使用。
✨ 主要特性
模型更新細節
- 更大的預訓練數據集:擁有 2750 億個唯一標記(之前約為 320 億個)。
- 全新構建的分詞器:基於 WordPiece,包含 32768 個標記,新增了換行符和製表符,支持表情符號,並且能更好地處理數字(數字被拆分為兩位標記)。
- 擴展的上下文窗口:達到 1024 個標記。
更多詳細信息可參考 CamemBERTv2 論文。
📦 安裝指南
本部分暫未提供具體安裝命令,可參考相關代碼示例進行操作。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM
camembertav2 = AutoModel.from_pretrained("almanach/camembertav2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/camembertav2-base")
📚 詳細文檔
微調結果
數據集包括:詞性標註和依存句法分析(GSD、Rhapsodie、Sequoia、FSMB)、命名實體識別(NER,FTB)、FLUE 基準測試(XNLI、CLS、PAWS - X)、法語問答數據集(FQuAD)、社交媒體命名實體識別(Counter - NER)以及醫學命名實體識別(CAS1、CAS2、E3C、EMEA、MEDLINE)。
模型 |
UPOS |
LAS |
FTB - NER |
CLS |
PAWS - X |
XNLI |
F1 (FQuAD) |
EM (FQuAD) |
Counter - NER |
Medical - NER |
CamemBERT |
97.59 |
88.69 |
89.97 |
94.62 |
91.36 |
81.95 |
80.98 |
62.51 |
84.18 |
70.96 |
CamemBERTa |
97.57 |
88.55 |
90.33 |
94.92 |
91.67 |
82.00 |
81.15 |
62.01 |
87.37 |
71.86 |
CamemBERT - bio |
- |
- |
- |
- |
- |
- |
- |
- |
- |
73.96 |
CamemBERTv2 |
97.66 |
88.64 |
91.99 |
95.07 |
92.00 |
81.75 |
80.98 |
61.35 |
87.46 |
72.77 |
CamemBERTav2 |
97.71 |
88.65 |
93.40 |
95.63 |
93.06 |
84.82 |
83.04 |
64.29 |
89.53 |
73.98 |
微調後的模型可在以下集合中找到:CamemBERTav2 微調模型。
預訓練代碼庫
我們對所有 v2 模型使用來自 CamemBERTa 倉庫 的預訓練代碼庫。
📄 許可證
本項目採用 MIT 許可證。
🔗 引用
@misc{antoun2024camembert20smarterfrench,
title={CamemBERT 2.0: A Smarter French Language Model Aged to Perfection},
author={Wissam Antoun and Francis Kulumba and Rian Touchent and Éric de la Clergerie and Benoît Sagot and Djamé Seddah},
year={2024},
eprint={2411.08868},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.08868},
}