M

Moderncamembert Base

由 almanach 开发
ModernCamemBERT是基于1T高质量法语文本语料库预训练的法语语言模型,是ModernBERT的法语版本,专注于长上下文和高效推理速度。
下载量 213
发布时间 : 4/11/2025

模型简介

ModernCamemBERT是一个法语语言模型,采用掩码语言建模(MLM)目标训练,适用于需要长上下文或高效推理速度的任务。

模型特点

高质量预训练数据
基于1T标记的高质量法语文本语料库训练,包括RedPajama-V2、法语科学文献和法语维基百科。
长上下文支持
最初以1024上下文长度训练,后在预训练阶段扩展至8192标记。
高效推理
相比传统架构具有更快的训练和推理速度。
语义过滤
通过基于LLama-3 70B自动标注的文档质量数据集训练的BERT分类器进行语义过滤。

模型能力

法语文本理解
掩码语言建模
长上下文处理

使用案例

自然语言处理
命名实体识别
法语文本中的命名实体识别任务
在FTB-NER数据集上达到91.33 F1分数
文本分类
法语文本分类任务
在CLS数据集上达到94.92准确率
语义相似度
法语文本语义相似度判断
在PAWS-X数据集上达到92.52准确率
问答系统
法语问答
法语阅读理解问答任务
在FQuAD数据集上达到82.19 F1分数和62.66 EM分数
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase