M

Moderncamembert Cv2 Base

由 almanach 开发
基于1万亿高质量法语文本预训练的法语语言模型,是ModernBERT的法语版本
下载量 232
发布时间 : 4/11/2025

模型简介

ModernCamemBERT是一个采用掩码语言建模(MLM)目标的法语Transformer模型,在48张H100 GPU上训练完成,支持长上下文处理

模型特点

大规模预训练
使用1万亿token的高质量法语语料进行训练,包含RedPajama-V2、HALvest科学文献和法语维基百科
高效架构
相比传统BERT架构,具有更快的训练和推理速度
长上下文支持
预训练初期使用1024上下文长度,后期扩展至8192token
严格数据过滤
通过基于LLama-3 70B的BERT分类器进行语义过滤,确保数据质量

模型能力

法语文本理解
掩码语言建模
长文本处理

使用案例

自然语言处理
命名实体识别
法语文本中的命名实体识别任务
在FTB-NER数据集上达到92.17 F1分数
文本分类
法语文本分类任务
在CLS数据集上达到94.86准确率
问答系统
法语问答系统开发
在FQuAD数据集上达到81.68 F1分数
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase