M

Moderncamembert Cv2 Base

由almanach開發
基於1萬億高質量法語文本預訓練的法語語言模型,是ModernBERT的法語版本
下載量 232
發布時間 : 4/11/2025

模型概述

ModernCamemBERT是一個採用掩碼語言建模(MLM)目標的法語Transformer模型,在48張H100 GPU上訓練完成,支持長上下文處理

模型特點

大規模預訓練
使用1萬億token的高質量法語語料進行訓練,包含RedPajama-V2、HALvest科學文獻和法語維基百科
高效架構
相比傳統BERT架構,具有更快的訓練和推理速度
長上下文支持
預訓練初期使用1024上下文長度,後期擴展至8192token
嚴格數據過濾
通過基於LLama-3 70B的BERT分類器進行語義過濾,確保數據質量

模型能力

法語文本理解
掩碼語言建模
長文本處理

使用案例

自然語言處理
命名實體識別
法語文本中的命名實體識別任務
在FTB-NER數據集上達到92.17 F1分數
文本分類
法語文本分類任務
在CLS數據集上達到94.86準確率
問答系統
法語問答系統開發
在FQuAD數據集上達到81.68 F1分數
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase