C

Camembertav2 Base

由almanach開發
CamemBERTav2是基於2750億法語文本標記預訓練的法語語言模型,採用DebertaV2架構,在多個法語NLP任務上表現優異。
下載量 2,972
發布時間 : 11/14/2024

模型概述

第二代CamemBERTa模型,針對法語優化的語言模型,支持多種自然語言處理任務。

模型特點

大規模預訓練
使用2750億法語文本標記進行訓練,遠超原版模型的320億標記
改進的分詞器
新建WordPiece分詞器,支持32,768個標記,優化了數字處理和特殊字符支持
擴展上下文窗口
上下文窗口擴展至1024個標記,能處理更長文本
多任務性能提升
在詞性標註、命名實體識別、問答等任務上全面超越前代模型

模型能力

法語文本理解
特徵提取
掩碼語言建模
詞性標註
命名實體識別
文本分類
問答系統

使用案例

自然語言處理
法語文本分析
用於法語文本的詞性標註和依存解析
在GSD/Rhapsodie/Sequoia/FSMB數據集上達到97.71%的UPOS準確率
命名實體識別
識別法語文本中的命名實體
在FTB-NER數據集上達到93.40%的F1分數
問答系統
構建法語問答系統
在FQuAD數據集上達到83.04%的F1分數和64.29%的EM分數
學術研究
科學文獻處理
處理法語科學文獻的文本分析
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase