C

Camembertv2 Base

由almanach開發
CamemBERTv2是基於2750億法語文本語料預訓練的法語語言模型,是CamemBERT的第二代版本,採用RoBERTa架構,優化了分詞器和訓練數據。
下載量 1,512
發布時間 : 11/14/2024

模型概述

CamemBERTv2是一個更智能的法語語言模型,適用於各種自然語言處理任務,如文本填充、詞性標註、命名實體識別等。

模型特點

大規模預訓練數據
使用2750億唯一詞符進行預訓練,遠超原版的320億。
全新分詞器
採用WordPiece分詞器,支持表情符號,優化數字處理(拆分為兩位數詞符)。
擴展上下文窗口
上下文窗口擴展至1024詞符,提升長文本處理能力。
高性能微調
在多個法語NLP任務上表現優異,如詞性標註、命名實體識別等。

模型能力

文本填充
詞性標註
依存分析
命名實體識別
問答系統
文本分類

使用案例

自然語言處理
法語文本填充
用於填充法語文本中的缺失部分。
詞性標註
對法語文本進行詞性標註。
UPOS準確率97.66
命名實體識別
識別法語文本中的命名實體。
FTB-NER F1分數91.99
問答系統
法語問答
用於構建法語問答系統。
FQuAD F1分數80.98
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase