Camembertv2-base開源法語語言模型 - 基於海量語料，助力法語文本處理

首頁

Camembertv2 Base

由almanach開發

CamemBERTv2是基於2750億法語文本語料預訓練的法語語言模型，是CamemBERT的第二代版本，採用RoBERTa架構，優化了分詞器和訓練數據。

大型語言模型

Transformers

法語開源協議:MIT #法語語言模型 #掩碼語言建模 #大語料預訓練

下載量 1,512

發布時間 : 11/14/2024

模型概述

CamemBERTv2是一個更智能的法語語言模型，適用於各種自然語言處理任務，如文本填充、詞性標註、命名實體識別等。

模型特點

大規模預訓練數據

使用2750億唯一詞符進行預訓練，遠超原版的320億。

全新分詞器

採用WordPiece分詞器，支持表情符號，優化數字處理（拆分為兩位數詞符）。

擴展上下文窗口

上下文窗口擴展至1024詞符，提升長文本處理能力。

高性能微調

在多個法語NLP任務上表現優異，如詞性標註、命名實體識別等。

模型能力

文本填充

詞性標註

依存分析

命名實體識別

問答系統

文本分類

使用案例

自然語言處理

法語文本填充

用於填充法語文本中的缺失部分。

詞性標註

對法語文本進行詞性標註。

UPOS準確率97.66

命名實體識別

識別法語文本中的命名實體。

FTB-NER F1分數91.99

問答系統

法語問答

用於構建法語問答系統。

FQuAD F1分數80.98

🚀 CamemBERT(a)-v2：一款臻於完美的智能法語語言模型

CamemBERTv2 是一款在 2750 億個法語文本標記的大型語料庫上進行預訓練的法語語言模型。它是 CamemBERT 模型的第二個版本，基於 RoBERTa 架構構建。CamemBERTv2 使用掩碼語言模型（MLM）目標進行訓練，掩碼率為 40%，在 32 個 H100 GPU 上訓練 3 個週期。用於訓練的數據集是來自 CulturaX 項目的法語 OSCAR 轉儲、來自 HALvest 的法語科學文檔以及法語維基百科的組合。

該模型可以直接替代原始的 CamemBERT 模型。請注意，新的分詞器與原始的 CamemBERT 分詞器不同，因此你需要使用快速分詞器來使用該模型。即使原始的 CamemBERTTokenizer 基於 SentencePiece，它也可以與 transformers 庫中的 CamemBERTTokenizerFast 一起使用。

查看基於 DeBERTaV3 的更強大的法語語言模型 CamemBERTav2 模型，點擊此處。

📚 詳細文檔

模型更新詳情

此次更新包含以下內容：

更大的預訓練數據集：2750 億個唯一標記（之前約為 320 億個）
基於 WordPiece 構建的新分詞器，包含 32768 個標記，新增換行符和製表符，支持表情符號，並能更好地處理數字（數字被拆分為兩位數字標記）
上下文窗口擴展至 1024 個標記

更多詳細信息可查看 CamemBERTv2 論文。

如何使用

from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM

camembertv2 = AutoModelForMaskedLM.from_pretrained("almanach/camembertv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/camembertv2-base")

微調結果

數據集包括：詞性標註和依存句法分析（GSD、Rhapsodie、Sequoia、FSMB）、命名實體識別（FTB）、FLUE 基準測試（XNLI、CLS、PAWS - X）、法語問答數據集（FQuAD）、社交媒體命名實體識別（Counter - NER）和醫學命名實體識別（CAS1、CAS2、E3C、EMEA、MEDLINE）。

模型	通用詞性標註（UPOS）	標註附著率（LAS）	FTB 命名實體識別	分類任務（CLS）	PAWS - X	跨語言自然語言推理（XNLI）	FQuAD F1 分數	FQuAD 精確匹配率（EM）	社交媒體命名實體識別	醫學命名實體識別
CamemBERT	97.59	88.69	89.97	94.62	91.36	81.95	80.98	62.51	84.18	70.96
CamemBERTa	97.57	88.55	90.33	94.92	91.67	82.00	81.15	62.01	87.37	71.86
CamemBERT - bio	-	-	-	-	-	-	-	-	-	73.96
CamemBERTv2	97.66	88.64	91.99	95.07	92.00	81.75	80.98	61.35	87.46	72.77
CamemBERTav2	97.71	88.65	93.40	95.63	93.06	84.82	83.04	64.29	89.53	73.98

微調後的模型可在以下集合中找到：CamemBERTv2 微調模型

預訓練代碼庫

我們對所有 v2 模型使用來自 CamemBERTa 倉庫的預訓練代碼庫。

引用

@misc{antoun2024camembert20smarterfrench,
      title={CamemBERT 2.0: A Smarter French Language Model Aged to Perfection},
      author={Wissam Antoun and Francis Kulumba and Rian Touchent and Éric de la Clergerie and Benoît Sagot and Djamé Seddah},
      year={2024},
      eprint={2411.08868},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.08868},
}

信息表格

屬性	詳情
模型類型	CamemBERT(a)-v2，基於 RoBERTa 架構的法語語言模型
訓練數據	來自 CulturaX 項目的法語 OSCAR 轉儲、來自 HALvest 的法語科學文檔以及法語維基百科