🚀 CamemBERT(a)-v2:一款臻於完美的智能法語語言模型
CamemBERTv2 是一款在 2750 億個法語文本標記的大型語料庫上進行預訓練的法語語言模型。它是 CamemBERT 模型的第二個版本,基於 RoBERTa 架構構建。CamemBERTv2 使用掩碼語言模型(MLM)目標進行訓練,掩碼率為 40%,在 32 個 H100 GPU 上訓練 3 個週期。用於訓練的數據集是來自 CulturaX 項目 的法語 OSCAR 轉儲、來自 HALvest 的法語科學文檔以及法語維基百科的組合。
該模型可以直接替代原始的 CamemBERT 模型。請注意,新的分詞器與原始的 CamemBERT 分詞器不同,因此你需要使用快速分詞器來使用該模型。即使原始的 CamemBERTTokenizer
基於 SentencePiece,它也可以與 transformers
庫中的 CamemBERTTokenizerFast
一起使用。
查看基於 DeBERTaV3 的更強大的法語語言模型 CamemBERTav2 模型,點擊此處。
📚 詳細文檔
模型更新詳情
此次更新包含以下內容:
- 更大的預訓練數據集:2750 億個唯一標記(之前約為 320 億個)
- 基於 WordPiece 構建的新分詞器,包含 32768 個標記,新增換行符和製表符,支持表情符號,並能更好地處理數字(數字被拆分為兩位數字標記)
- 上下文窗口擴展至 1024 個標記
更多詳細信息可查看 CamemBERTv2 論文。
如何使用
from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM
camembertv2 = AutoModelForMaskedLM.from_pretrained("almanach/camembertv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/camembertv2-base")
微調結果
數據集包括:詞性標註和依存句法分析(GSD、Rhapsodie、Sequoia、FSMB)、命名實體識別(FTB)、FLUE 基準測試(XNLI、CLS、PAWS - X)、法語問答數據集(FQuAD)、社交媒體命名實體識別(Counter - NER)和醫學命名實體識別(CAS1、CAS2、E3C、EMEA、MEDLINE)。
模型 |
通用詞性標註(UPOS) |
標註附著率(LAS) |
FTB 命名實體識別 |
分類任務(CLS) |
PAWS - X |
跨語言自然語言推理(XNLI) |
FQuAD F1 分數 |
FQuAD 精確匹配率(EM) |
社交媒體命名實體識別 |
醫學命名實體識別 |
CamemBERT |
97.59 |
88.69 |
89.97 |
94.62 |
91.36 |
81.95 |
80.98 |
62.51 |
84.18 |
70.96 |
CamemBERTa |
97.57 |
88.55 |
90.33 |
94.92 |
91.67 |
82.00 |
81.15 |
62.01 |
87.37 |
71.86 |
CamemBERT - bio |
- |
- |
- |
- |
- |
- |
- |
- |
- |
73.96 |
CamemBERTv2 |
97.66 |
88.64 |
91.99 |
95.07 |
92.00 |
81.75 |
80.98 |
61.35 |
87.46 |
72.77 |
CamemBERTav2 |
97.71 |
88.65 |
93.40 |
95.63 |
93.06 |
84.82 |
83.04 |
64.29 |
89.53 |
73.98 |
微調後的模型可在以下集合中找到:CamemBERTv2 微調模型
預訓練代碼庫
我們對所有 v2 模型使用來自 CamemBERTa 倉庫 的預訓練代碼庫。
引用
@misc{antoun2024camembert20smarterfrench,
title={CamemBERT 2.0: A Smarter French Language Model Aged to Perfection},
author={Wissam Antoun and Francis Kulumba and Rian Touchent and Éric de la Clergerie and Benoît Sagot and Djamé Seddah},
year={2024},
eprint={2411.08868},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.08868},
}
信息表格
屬性 |
詳情 |
模型類型 |
CamemBERT(a)-v2,基於 RoBERTa 架構的法語語言模型 |
訓練數據 |
來自 CulturaX 項目的法語 OSCAR 轉儲、來自 HALvest 的法語科學文檔以及法語維基百科 |