M

Moderncamembert Base

由almanach開發
ModernCamemBERT是基於1T高質量法語文本語料庫預訓練的法語語言模型,是ModernBERT的法語版本,專注於長上下文和高效推理速度。
下載量 213
發布時間 : 4/11/2025

模型概述

ModernCamemBERT是一個法語語言模型,採用掩碼語言建模(MLM)目標訓練,適用於需要長上下文或高效推理速度的任務。

模型特點

高質量預訓練數據
基於1T標記的高質量法語文本語料庫訓練,包括RedPajama-V2、法語科學文獻和法語維基百科。
長上下文支持
最初以1024上下文長度訓練,後在預訓練階段擴展至8192標記。
高效推理
相比傳統架構具有更快的訓練和推理速度。
語義過濾
通過基於LLama-3 70B自動標註的文檔質量數據集訓練的BERT分類器進行語義過濾。

模型能力

法語文本理解
掩碼語言建模
長上下文處理

使用案例

自然語言處理
命名實體識別
法語文本中的命名實體識別任務
在FTB-NER數據集上達到91.33 F1分數
文本分類
法語文本分類任務
在CLS數據集上達到94.92準確率
語義相似度
法語文本語義相似度判斷
在PAWS-X數據集上達到92.52準確率
問答系統
法語問答
法語閱讀理解問答任務
在FQuAD數據集上達到82.19 F1分數和62.66 EM分數
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase